首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于云南境内说话人母语为纳西语、僳僳语的汉语普通话语音,采用隐马尔可夫模型(HMM),由标准普通话语音库训练得到基线系统的声学模型(HMMSTD).然后以基线系统的声学模型为初始模型,分别用母语为纳西语、傈僳语的汉语普通话语音训练得到各自的声学模型(HMMNX和HMMLS),对于未知语音,根据各识别系统的概率得分。采用最大概率准则进行口音的分类判决.实验表明,基于HMM的口音识别系统,其正确识别率达93%。  相似文献   

2.
基于小数据量的方言普通话语音识别声学建模   总被引:1,自引:0,他引:1  
为在少量数据情况下显著提高方言普通话的识别率,针对标准普通话和方言普通话之间发音差异是连续变化的特点,在少量方言普通话的基础上,提出了基于距离度量的识别基元扩展方法,并将扩展基元与状态相关的基于基元的模型归并方法相结合.采用1 h的上海普通话数据作为开发集,用本方法,使音节错误率降低了17.3%. 另外与自适应方法的结合使用,还可以将音节错误率再降低6.6%, 这比单纯应用自适应方法错误率多降低了5.4%.  相似文献   

3.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

4.
介绍了语音识别技术ASR的发展历史、目前研究方法、技术手段及当前取得的成绩与不足,提出一种新的的研究理论——利用基因算法训练HMM方法.  相似文献   

5.
根据人耳听觉特性,提出新的同步多带最大似然线性回归算法用于噪声环境下语音识别。该算法采用最大似然作为参数估计准则,利用各频带信号同步感知和噪声污染假定的方法进行语音模型补偿,有效地提高了识别系统在噪声环境下的识别性能。  相似文献   

6.
大规模词表连续语音识别系统需要综合各种知识源,如声学模型、语言模型、发音词典等。其中,解码网络是识别引擎的基础,对提高解码器的性能有着至关重要的影响。有效综合这些知识源,构建一个紧致的解码网络,可以有效减少识别时的搜索空间和重复计算,显著提高解码速度。该文针对语音识别的动态解码网络进行研究,提出了词标志(word end,WE)节点前推算法,结合传统的前后向合并算法,实现了一个基于隐Markov模型状态为网络节点的紧凑动态解码网络。优化后的解码网络的节点数和边数分别是线性词典解码网络的1/4,是开源工具包HDecode的1/2;需要计算语言模型预测分数的节点数为HDecode的1/2。该声学模型基于三音子建模,可方便地移植到其他语种上。  相似文献   

7.
基于一种听觉模型的特征提取及语音识别   总被引:4,自引:0,他引:4  
该文分析了人耳耳蜗及中枢听觉神经对声信号处理的机理,主要包括耳蜗对声信号的频率分析、柯蒂氏器官毛细胞的从振动机械能到电化学能的转换,听神侧抑制神经网络和增益调整四个层次,建立各个层次上听觉的数学模型。  相似文献   

8.
听觉计算模型在自动语音识别中的作用   总被引:2,自引:0,他引:2  
听觉系统是语音信号处理过程不可分割的组成部分,听觉计算模型对自动语音识别研究具有非常重要的意义.简要评述了听觉计算模型近30年的研究进展,特别是近些年的研究成果,并指出听觉计算模型未来研究的主要方向.  相似文献   

9.
提出了一种基于小波变换和HMM模型的ARMA新模型参数,并将它用于A…N的英文字母的识别。小波变换可以高频提供高的频率分辨,在低频提供高的时间分辨率,而ARMA模型则可以改善LPC模型中没有零点的不足。实验结果表明,2个零点,10个极点的ARMA对字母C的识别准确性明显提高。  相似文献   

10.
通过分析基于隐马尔可夫模型(HMM)语音识别的原理,针对模板提取过程中语音信号的基音频率差别增大而出现的语音识别率下降的问题,提出分类识别的方法,通过采用基音周期(Pitch)判决方法,将特征相近的帧合并,并计算基音频率的MEL频率倒谱系数,采用隐马尔可夫模型(HMM)进行语音识别,最终通过仿真实验验证分类识别方法对语音识别率提高的影响,得出此方法的适用环境和范围.  相似文献   

11.
The development of computational auditory modeling in the last 30 vears is reviewed, and its development in the com trig years is predicted .  相似文献   

12.
针对传统的隐含马尔可夫模型(hidden Markov model,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分,比较前后两次算出的分数从而选出更可靠的识别结果。实验表明,通过该方法将段长模型应用在识别过程中,可以显著提高识别系统的性能,大量减少识别结果中的插入错误。数据显示,该方法使识别系统的音节错误率下降了大约10%,识别系统最终的插入错误和删除错误都低于1%。  相似文献   

13.
基于传统的Mel倒谱系数(MFCC)系列特征的语音识别系统在噪声环境中的识别性能会急剧下降。为了进行噪声环境中的自动语音识别,提出了一种反映语音信号谐振程度的特征:谐振强度,并用之代替传统MFCC特征中的能量维(零维倒谱C0,或者帧能量E)。在展览馆噪声、人群噪声和汽车噪声等情况下的语音识别实验结果表明:基于这种新特征的语音识别系统比基于传统特征的语音识别系统有更高的平均识别率和更好的抗噪声能力。  相似文献   

14.
基于改进的隐马尔科夫模型的语音识别方法   总被引:1,自引:0,他引:1  
针对隐马尔可夫(HMM)语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息,能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。  相似文献   

15.
为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。  相似文献   

16.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

17.
基于状态驻留时间的汉语语音分段概率模型   总被引:1,自引:0,他引:1  
为了解决分段概率模型 (SPM)因缺少对时间信息描述而带来的建模精度低的问题 ,提出了状态驻留分段概率模型 (SDSPM)。SDSPM中包含了用伽玛分布表示的状态驻留概率 ,以刻划语音的时间特征。此驻留概率相当于隐马尔可夫模型 (HMM)中的状态转移概率 ,但使 SDSPM描述语音时间特征的能力强于 HMM。SDSPM既改善了 SPM的模型性能 ,同时又避免了 HMM的计算复杂度问题。测试实验证明了 SDSPM模型在汉语语音识别中的有效性。  相似文献   

18.
针对语音识别性能提高的问题,提出了一种基于多分类器融合的语音识别方法,该方法使用支持向量机(support vector machine,SVM),RBF神经网络与贝叶斯网络作为成员分类器,根据样本库中抽取的校验集计算各成员分类器的权值,以加权评分的投票策略进行决策融合.实验结果表明,通过多分类器融合的识别结果明显优于...  相似文献   

19.
连续语音识别中的说话人快速自适应技术   总被引:2,自引:0,他引:2  
语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。  相似文献   

20.
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注.基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点.在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性.针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比.实验结果表明,LSTM-DNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号