首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
基于改进的隐马尔科夫模型的语音识别方法   总被引:1,自引:0,他引:1  
针对隐马尔可夫(HMM)语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息,能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。  相似文献   

2.
本文介绍了隐式 Markov 模型(简称 HMM)识别语音的基本原理,对在训练孤立词模型过程中采用的 Baum-Welch 算法和 Viterbi 算法进行了研究,导出了参数估计的整套算式,提出了解决 HMM 在计算机上实现时出现的问题的方法及其实现算式。作者将 HMM 应用于汉语数字的识别,进行了不同算法的比较和不同初值条件的试验,给出了相应的识别结果。  相似文献   

3.
提出一种新的复杂环境噪声下无参考源语音质量客观评价方法.该方法基于准干净语音构造和有参考源评价模型,实现接近于有参考源客观评价的性能.首先,采用改进的最小值控制递归平均算法和多带谱减法获得带噪语音的准干净语音;然后,将该准干净语音作为改进的主观语音质量评估(PESQ)算法的参考语音,计算参考语音与带噪语音之间的失真误差,获得带噪语音的客观评价分值.实验结果表明:该算法客观评分相关度达到0.927,与有参考源语音质量客观评价标准的相关度0.931相比,实现了99%的接近,与无参考源的客观评价标准相比,提高了7.4%.  相似文献   

4.
介绍了用有限态文法引导的基于连续密度隐马尔可夫模型(HMM)的连续汉语语音识别系统.分析了系统的组成,词语的HMM的训练方法和对识别系统的测试结果。实验表明,用有限态文法辅助进行连续语音识别是一种有效的策略;连续密度HMM与基于矢量量化的HMM/VQ相比需要较大的计算量,但可明显提高识别准确率。  相似文献   

5.
通过分析基于隐马尔可夫模型(HMM)语音识别的原理,针对模板提取过程中语音信号的基音频率差别增大而出现的语音识别率下降的问题,提出分类识别的方法,通过采用基音周期(Pitch)判决方法,将特征相近的帧合并,并计算基音频率的MEL频率倒谱系数,采用隐马尔可夫模型(HMM)进行语音识别,最终通过仿真实验验证分类识别方法对语音识别率提高的影响,得出此方法的适用环境和范围.  相似文献   

6.
基于BPNN/HMM神经网络的声学模型研究   总被引:1,自引:0,他引:1  
研制了一种基于BP神经网络和隐马尔可夫模型(HMM)的混合声学模型,BP神经网络的主要功能是把失真语音特征矢量转换成纯净语音特征矢量,而删则对转换后的纯净语音特征矢量进行分类,从模型级补偿的方面来提高语音识别系统的鲁棒性.讨论了一种基于线性预测的MKCC语音特征提取方法,该方法把提取出的失真语音特征矢量作为神经网络的输入,从而实现了特征参数级去噪处理的目的.  相似文献   

7.
语音质量评价始终是语音处理系统研发中极为关心和重视的问题。要对日益庞杂的语音系统进行测评,研制灵活、方便、快捷、可靠的语音质量评价系统极其必要。通过介绍语音音质客观评价方法的基本原理,分析ITU—T最新建议标准P.862中的PESQ算法,最终提出了基于PESQ算法的语音音质客观评价系统的软硬件实现方案,并重点介绍了系统各部分的设计思想、实现难点以及解决策略。  相似文献   

8.
基于人耳听觉模型的语音质量客观评价方法   总被引:1,自引:0,他引:1  
将人耳听觉模型应用于语音质量客观评价 ,用听觉模型对语音作处理得到近似的短时语音频谱 ,在此基础上得到谱距离作为语音质量的评判标准 .实验结果表明这种方法与主观评价结果的相关度达到 0 .83  相似文献   

9.
针对传统的 HMM 模型中状态持续时间不长的不足,且在计算量大的情况下,语音识别精度不高,训练时间长,训练误差较高,提出了一种基于语音状态持续时间长的 HMM 模型。 首先,令状态转移矩阵的对角线元素全为 0,去掉自转移弧,再增添以参数化的函数描述持续时间的高斯分布,再通过帧与帧相互 之间的关联程度,将每帧都计算进去;其次,通过重估公式反复计算每条弧被指定的转变概率和可见符号序列输出最原始的数值概率,直至收敛,停止运算。 最后,在 HMM 模型改进前后实验中得到更小的训练误差,下降速度更快,计算量较之前减少多,更容易达到收敛,其概率输出与它前面一个概率输出的差值与该概率 输出值的比值大于 HMM 模型设定的初始值。 与传统 HMM 模型实验比较,基于持续时间状态的 HMM 模型可以在一定程度上降低训练次数和训练时间,提高识别语音的精确度,基本完成了语音识别系统的功能。  相似文献   

10.
基于多维参数的语音身份认证系统研究   总被引:1,自引:0,他引:1  
本文研究了与文本相关说话人语音通过多维参数的语音身份认证系统进行身份认证的过程。重点研究了小波降噪、语音增强、辅助加权MFCC语音特征提取,混合HMM语音辨识的算法及实现问题。试验表明该技术在认证效率、准确度、自适应性方面有较好表现。  相似文献   

11.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

12.
无线局域网的语音应用日益广泛。本文分析了网络语音质量的评价方法,提出了改进的评价模型,使用原始语音数据进行网络仿真评价,得到了不同客观条件下无线局域网语音质量的平均意见得分,分析了不同的播放算法对语音质量的影响。  相似文献   

13.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

14.
根据英语语言所具有的一些特性对HMM模型进行改进,设计出适合英语语音合成的上下文属性集以及用于模型聚类的问题集,提高了其建模和训练效果。此外,借助HTK和Festival等工具,以基频和声道谱参数为训练参数,最终实现此英语语音合成系统。从所合成语句的效果来看,合成语音整体稳定流畅,而且节奏感比较强。  相似文献   

15.
统计语音合成使用隐Markov模型(HMM)作为声学特征的统计模型。提出了一种利用声学模型空间距离进行HMM的大尺度压缩的量化方法,通过对矢量量化码本进行的优选迭代步骤,减小压缩后的声道谱模型与原模型之间的声学距离,使通过量化模型合成的语音更加接近未量化模型。主观和客观测试结果显示:使用该方法进行声道谱模型的压缩,在压缩至原模型大小的0.06左右时,仍有约90%的评价得分认为合成语音的质量没有明显下降。  相似文献   

16.
一种新型汉语单音节识别方法   总被引:1,自引:0,他引:1  
介绍了一种新型字基 VQ/HMM语音识别方法: VQ与 HMM分级识别算法。 使得 VQ部分可用作语音识别的第一级处理, HMM部分作第二级识别。在第一级识别中 可引进汉语的音素知识,使 VQ/HMM性能进一步提高,并可用于大字汇表的实时语音识 别,存贮量、计算量均大大减少。用此方法把汉语四声作一个 HMM模型,使汉语 400 个基本音节的识别率达 96%以上.若加上精确四声识别则可识别汉语的 1200种声音。  相似文献   

17.
为了能够更加准确地评价语音包丢失对基于IP的语音传输(voice over internet protocol,VoIP)的语音质量的损伤,对ITU-T G.107建议书提出的语音质量预测模型E-Model中计算丢包与编码造成的损伤Ie-eff的方法作出改进,在综合考虑语音包的内部特性和存在突发连续丢包情况后,提出利用在固定语音长度下,语音实际损失时间Tloss来衡量语音包丢失造成的语音损伤.仿真结果表明,相比原有模型,改进后的模型得到的语音质量评分同主观语音质量评估方法(perceptual evaluation of speech quality,PESQ)评分相比,皮尔森相关系数平均提高了0.045 8,均方根误差平均降低了0.053 4,改进后的E-Model模型在评价语音质量时与PESQ更具有一致性,可以更为准确地预测VoIP通信的语音质量.  相似文献   

18.
基于G auss ian混合模型的音色变换算法在预测目标说话人频谱时会出现过平滑问题,导致声音转换结果的音质下降。该文分析了造成过平滑问题的原因,并提出一种考虑帧间动态特征的音色变换改进算法,在估计参数的目标函数中加入了连续性和方差的影响,从而改善了映射结果的帧间连续性,并使方差最大化,克服了过平滑现象。实验表明该算法在保证变换结果的目标倾向性的同时,能够使变换语音的音质主观意见得分由3.11提高到3.89,证明动态特征对提高音色变换的音质有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号