首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%~7%的改善.  相似文献   

2.
为了提高语音识别准确率,提出了一种子空间域相关特征变换与融合的语音识别方法(MFCC-BN-TC方法)。该方法提取语音短时谱结构特征(BN)和包络特征(MFCC)分别描述语音短时谱结构和包络信息,并采用域相关特征变换的形式分别对BN和MFCC特征进行特征变换;然后对这种变换进行泛化扩展提出子空间域相关特征变换,以采用不同的时间颗粒度(帧和语音分段)进行多层次区分性特征表达;最后,对多种区分性特征变换后的特征进行联合表征训练声学模型,并给出了区分性特征变换与融合的一般框架。实验结果表明:MFCC-BN-TC方法比采用原始BN特征方法和采用MFCC特征基线系统方法,识别性能各自提高了0.98%和1.62%;融合MFCCBN-TC方法变换以后的语音信号特征,相比于融合原始特征,识别率提升了1.5%。  相似文献   

3.
近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础,提出了一种基于统计阈值的倒谱均值方差归一化算法,该算法能进一步减小训练环境和测试环境的不匹配程度,从而提升了语音识别系统对环境噪声的鲁棒性。首先,对输入的语音提取MFCC声学参数,然后对提取的声学参数作均值方差归一化处理,最后采用统计阈值的方法抑制归一化后存在变异的特征。该算法能增加带噪语音特征和纯净语音特征的相似性;与MFCC为基线的系统相比,在低信噪比情况下,该算法的错误率最高下降约40%,同时该方法也优于其他的鲁棒性特征倒谱均值减和倒谱均值归一。  相似文献   

4.
基于传统的Mel倒谱系数(MFCC)系列特征的语音识别系统在噪声环境中的识别性能会急剧下降。为了进行噪声环境中的自动语音识别,提出了一种反映语音信号谐振程度的特征:谐振强度,并用之代替传统MFCC特征中的能量维(零维倒谱C0,或者帧能量E)。在展览馆噪声、人群噪声和汽车噪声等情况下的语音识别实验结果表明:基于这种新特征的语音识别系统比基于传统特征的语音识别系统有更高的平均识别率和更好的抗噪声能力。  相似文献   

5.
针对声学特征(韵律特征和MFCC特征)对情感语音的分类识别性能不理想的问题,提出了一种将声学特征与情感语音PAD数据相结合的级联分类方法用于情感语音识别。首先提取情感语音的声学特征,对特征分别单独识别与组合识别,对比建立最优特征集合。然后将声学特征组合与情感语音PAD数据相结合,分两步逐级地判断出输入语音所属的情感类型。该方法在TYUT2.0情感语音数据库上得到了较好的结果,情感分类识别率相较于传统声学特征的分类识别率提高了15.4%.  相似文献   

6.
该文提出了应用声学似然分作为置信度来生成可靠口音相关单元的方法。基于可靠口音相关单元构造声学模型,并通过声学模型重构的方法将它们融合到标准普通话模型中,以改善普通话语音识别器对带多方言口音语音的识别效果。另外,还提出了使用增量式决策树融合及根据支配度选择Gauss混合2种方法来减少冗余的Gauss混合,从而提高了重构后的声学模型的效率。实验表明:该方法在不降低对标准普通话的识别率的前提下,对粤、吴口音的绝对音节错误率分别下降了9.25%和9.21%。  相似文献   

7.
一种新型语音识别系统   总被引:1,自引:0,他引:1  
提出一种新型语音识别系统,采用帧能量与帧过零率的乘积作为指标量进行语音端点检测,以MFCC作为语音信号特征矢量,基于HMM语音识别模型进行语音识别.同时,提出了一种新的抗噪语音识别方法,通过改进型重复Wiener滤波结合PUM模型进行抗噪语音识别,较好地抑制了噪声干扰,提高了语音识别率.  相似文献   

8.
为了在大词汇量连续语音识别(LVCSR)系统中能够利用段长信息,该文按树状组织发音词典,利用语言模型预测技术,基于最大似然状态序列(M LSS)算法,给出了采用基于段长分布的隐含M arkov模型(DDBHMM)的LVCSR系统的二元文法语言模型的单步搜索算法。实验结果表明,尽管单步搜索的替代错误率高于双步搜索,但单步搜索的插入和删除错误率都比双步搜索要低,总体性能上单步搜索要好于双步搜索。同时,DDBHMM能较准确地利用了语音信号中的状态段长信息,采用DDBHMM的LVCSR系统比采用经典的齐次HMM的系统有更好的识别性能。  相似文献   

9.
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.  相似文献   

10.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

11.
为了有效提取语音特征,提高说话人识别的准确率,系统采用基于有限状态机的端点检测算法对原始语音做VAD处理,提出了新的特征组合参数:基于人的听觉特性的MFCC参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率,并将它们作为说话人识别系统的特征参数,建立了基于VQ的识别模型.实验表明:本文系统使用VAD,使系统的识别率提高了5%8%,较单独使用MFCC参数的说话人识别系统的识别率提高了2%3%.  相似文献   

12.
语音识别模型中帧间独立假设在给模型计算带来简洁的同时,不可避免地降低了模型精度,增加了识别错误。该文旨在寻找一种既能满足帧间独立假设又能保持语音信息的特征。分别提出了基于k均值和基于归一化类内方差的语音识别自适应聚类特征提取算法,可以自适应地实现聚类特征流的提取。将该自适应特征分别应用在Gauss混合模型-隐Markov模型、基于段长分布的隐Markov模型和上下文相关的深度神经网络模型这3种语音识别模型中,与基线系统进行了实验对比。结果表明:采用基于归一化类内方差的自适应特征可以使得3种语言模型的识别错误率分别相对下降10.53%、5.17%和2.65%,展示了语音自适应聚类特征的良好性能。  相似文献   

13.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

14.
基于HMM的孤立字识别   总被引:1,自引:0,他引:1  
本文以HMM(隐马尔可夫模型)为基础研究孤立字的汉语语音识别。孤立字的汉语语音样本首先经过人工切分去除寂静段,然后进行分帧处理;对每一帧语音进行频域预加重和时域汉明窗加权处理后,提取该帧的39维的MFCC混合参数(Mel频率倒谱参数);把该字所有帧的MFCC混合参数作为该字HMM模型的观察序列对其进行训练。通过在小人群范围内对0-9这十个孤立数码语音的大量实验,得到了很好的识别效果。  相似文献   

15.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

16.
为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。  相似文献   

17.
根据人耳听觉特性,提出新的同步多带最大似然线性回归算法用于噪声环境下语音识别。该算法采用最大似然作为参数估计准则,利用各频带信号同步感知和噪声污染假定的方法进行语音模型补偿,有效地提高了识别系统在噪声环境下的识别性能。  相似文献   

18.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

19.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

20.
针对目前连续语音识别中广泛使用的齐次HMM(hidden Markov model)模型识别精度低的现状,该文提出了三音子DDBHMM(duration distribution based HMM)识别方法。根据汉语的特点,设计了适用于连续语音识别的三音子。描述了识别中使用的MLSS(most likely state sequence)准则。设计了识别网络并阐明了用于三音子识别的帧同步识别算法。将三音子DDBHMM识别方法与三音子齐次HMM识别方法和双音子DDBHMM识别方法进行了实验对比,结果表明:采用三音子DDBHMM可以使得识别错误率分别下降0.95%和2.29%。说明该方法能够显著地改进连续语音识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号