首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元音及其变体对前后接音素协同发音的影响,提出了基于扩展的元音三角图设计问题集(NewQS)的方法。实验表明:NewPS和NewQS结合的识别性能超越了传统的声韵母建模单元集;并且,建模单元数目大幅度的减少给系统后续模块的处理带来了便利。  相似文献   

2.
提出针对汉语连续语音识别中的大型HMM进行修正。在模型中加入双词法约束,然后给出洁约束下的新的识别算法,新识别算法基于Viterbi算法和分层构筑思想之上。经实验测试,识别率有较大提高。  相似文献   

3.
为了在大词汇量连续语音识别(LVCSR)系统中能够利用段长信息,该文按树状组织发音词典,利用语言模型预测技术,基于最大似然状态序列(M LSS)算法,给出了采用基于段长分布的隐含M arkov模型(DDBHMM)的LVCSR系统的二元文法语言模型的单步搜索算法。实验结果表明,尽管单步搜索的替代错误率高于双步搜索,但单步搜索的插入和删除错误率都比双步搜索要低,总体性能上单步搜索要好于双步搜索。同时,DDBHMM能较准确地利用了语音信号中的状态段长信息,采用DDBHMM的LVCSR系统比采用经典的齐次HMM的系统有更好的识别性能。  相似文献   

4.
语音端点检测(voice activity detection,VAD)是在连续语音信号中,将语音和非语言片段分离的技术。VAD在语音识别、说话人识别、语音编码等领域起着重要作用。传统VAD算法在类型已知的噪声环境下可以达到较好的性能,但在实际情况中,未知噪声的影响通常会使系统性能下降显著,在差异化噪声下的VAD是端点检测的研究难点。在总结现有语音端点检测算法基础上,提出了一种基于深度神经网络的语音端点检测方法,同时结合维特比算法,与基于贝叶斯信息准则(bayesian information criterion, BIC)的混合高斯模型(gaussian mixture model,GMM) 语音端点检测系统进行对比,在大词汇连续语音识别系统中的实验结果表明,将深度神经网络结合维特比算法,应用于语音端点检测,在复杂噪声环境下取得了更好的效果,适应性更强。  相似文献   

5.
董蓉  袁俊  朱杰 《上海交通大学学报》2002,36(10):1529-1532
在普通话连续数字串的识别中,与传统HMM在持续时间模型上的错误假设有关的删除与插入错误所占比例可达24.23%。基于此,在Viterbi解码中引入持续时间模型信息。对多种带参函数分布的持续时间模型在理论和实验上的比较分析都证明了Gamma分布更能精确反映汉语字模型的持续时间特性。文中还在外惩罚模型的基础上提出预理分段内惩罚持续时间模型和全局内惩罚持续时间模型两种改进算法。实验表明,结合持续时间模型的语音识别算法可以有效地减少删除与插入错误率,使总体识别错误率比基带系统减少了47.74%。  相似文献   

6.
为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。  相似文献   

7.
研究了用于CHMM的MCE学习方法,提出了简单形式的识别函数、误差函数、扣池数等的定义方法以及总损失函数的最小化方法。通过对非特定人汉语连续语音识别实验,证明了提出了的函数形式和损失函数最小化方法对CHMM的MCE学习的有效性。  相似文献   

8.
语音识别中基于模糊聚类分析的参数聚类   总被引:1,自引:0,他引:1  
徐向华  朱杰  郭强 《上海交通大学学报》2004,38(12):2086-2088,2093
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,基于声学决策树结构,提出利用模糊聚类分析方法对模型参数聚类,包括高斯聚类和方差共享.对大词汇量汉语连续语音识别的实验结果表明:高斯模糊聚类使高斯数减少25%时,识别率提高了0.15%.进一步做模糊方差共享,当方差减少到初始模型的24%,与同样参数量的未进行聚类的模型相比,误识率下降了3.01%,证明了模糊聚类分析在语音参数聚类中的有效性.  相似文献   

9.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

10.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

11.
噪声环境中基于HMM模型的语音信号端点检测方法   总被引:7,自引:1,他引:6  
在噪声环境下如何提高语音信号端点检测的准确性是自动语音识别(ASR)研究中的一个重要课题.常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下,检测性能不够理想.讨论了一种基于HMM模型的语音信号端点检测方法.先用训练的方法生成背景噪声和废料的模型,再用Viterbi解码算法对待测信号进行处理,并给出了具体的实现方法.实验测试结果表明,基于HMM的端点检测方法的检测性能接近于人工检测,方法是有效的.  相似文献   

12.
在大词表孤立词语音识别中,Viterbi搜索是时间消耗的主要因素。为改善基线系统性能,根据汉语孤立词识别的特点,提出了一种基于音节切分的束搜索算法,在音节层和词条层进行剪枝。该算法不增加内存开销。实验结果表明:在词表规模为10 000时,该算法以0.23%的识别率下降率为代价,将Viterbi搜索的时间消耗降低为基线系统的26.73%;相对于小词表,该算法在大词表情况下对系统性能的改善尤为明显。  相似文献   

13.
在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。  相似文献   

14.
一种改进的混合型语音识别方法   总被引:2,自引:1,他引:1  
提出了一种改进的HMM语音识别方法,其主要特点是引入了加权函数算法,以减少系统的误识率,实验结果表明,这种识别方法不仅能提高系统的识别率,而且所需训练样本少。  相似文献   

15.
采用基于统计模型的隐马尔可夫模型(hidden Markov model,HMM)来描述语音模型,进行语音模型库训练,并使用模板匹配的Viterbi算法进行语音识别,实现了以凌阳16位单片机SPCE061A为核心的语音密码锁系统,包括键盘模块、电源模块、门锁控制模块、LCD显示模块。该密码锁将语音密码和键盘密码技术相结合以保证系统安全性,通过测试,系统对特定人语音识别率为98%。  相似文献   

16.
为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。  相似文献   

17.
基于离散HMM的非特定人关键词提取语音识别系统   总被引:2,自引:0,他引:2  
设计了一个基于离散隐含马尔可夫整词模型的非特定人汉语小词表关键词提取语音识 别系统, 提出一种基于对前向、 后向搜索得到的关键词假设做二次识别的置信度策略. 将 该置信度用于关键词提取系统的说话验证, 得到了良好效果.  相似文献   

18.
介绍了一个在微机上实现的有限词,特定人语音识别系统,该系统采用连续,M元高斯混合密度的隐式马尔柯夫模型(CDHMM)为识别方法,以修改后的BaumWelch方法为训练重估算法,文中提出了对语音特征矢量非线性归一化预处理,和对训练数据不足的HMM模型特征空产是进行后处理修正的算法,还提出了一种基于语音知识的模型初始化的方法,经实验证明,系统的识别率可以达到90%以上。  相似文献   

19.
在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合现有的语音识别技术,开发出基于听觉的救援机器人导航系统.该系统使机器人可以在全局运动控制中跟踪幸存者的呼救声并向幸存者移动.通过相关实验验证了基于听觉的救援机器人导航方法的可行性.  相似文献   

20.
汉语语音音素分割的一种新方法   总被引:3,自引:0,他引:3  
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 ,取得了较好的结果  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号