期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

包叶波胡郁刘聪江辉戴礼荣刘庆峰《清华大学学报(自然科学版)》2011,(9):1288-1292,1297

在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元音及其变体对前后接音素协同发音的影响,提出了基于扩展的元音三角图设计问题集(NewQS)的方法。实验表明:NewPS和NewQS结合的识别性能超越了传统的声韵母建模单元集;并且,建模单元数目大幅度的减少给系统后续模块的处理带来了便利。相似文献

2.

连续汉语音识别有双词文法约束的大型HMM

张英林贾骏《兰州大学学报(自然科学版)》1999,35(1):77-80

提出针对汉语连续语音识别中的大型ＨＭＭ进行修正。在模型中加入双词法约束,然后给出洁约束下的新的识别算法,新识别算法基于Ｖｉｔｅｒｂｉ算法和分层构筑思想之上。经实验测试,识别率有较大提高。相似文献

3.

基于DDBHMM的LVCSR系统的单步搜索算法

孙健王作英《清华大学学报(自然科学版)》2006,46(10):1735-1738

为了在大词汇量连续语音识别(LVCSR)系统中能够利用段长信息,该文按树状组织发音词典,利用语言模型预测技术,基于最大似然状态序列(M LSS)算法,给出了采用基于段长分布的隐含M arkov模型(DDBHMM)的LVCSR系统的二元文法语言模型的单步搜索算法。实验结果表明,尽管单步搜索的替代错误率高于双步搜索,但单步搜索的插入和删除错误率都比双步搜索要低,总体性能上单步搜索要好于双步搜索。同时,DDBHMM能较准确地利用了语音信号中的状态段长信息,采用DDBHMM的LVCSR系统比采用经典的齐次HMM的系统有更好的识别性能。相似文献

4.

基于维特比算法的深度神经网络语音端点检测

李文洁张晴晴张鹏远颜永红摆亮《重庆邮电大学学报(自然科学版)》2018,30(2):210-215

语音端点检测(voice activity detection,VAD)是在连续语音信号中,将语音和非语言片段分离的技术。VAD在语音识别、说话人识别、语音编码等领域起着重要作用。传统VAD算法在类型已知的噪声环境下可以达到较好的性能,但在实际情况中,未知噪声的影响通常会使系统性能下降显著,在差异化噪声下的VAD是端点检测的研究难点。在总结现有语音端点检测算法基础上,提出了一种基于深度神经网络的语音端点检测方法,同时结合维特比算法,与基于贝叶斯信息准则(bayesian information criterion, BIC)的混合高斯模型(gaussian mixture model,GMM) 语音端点检测系统进行对比,在大词汇连续语音识别系统中的实验结果表明,将深度神经网络结合维特比算法,应用于语音端点检测,在复杂噪声环境下取得了更好的效果,适应性更强。相似文献

5.

普通话连续数字串语音识别的持续时间模型

董蓉袁俊朱杰《上海交通大学学报》2002,36(10):1529-1532

在普通话连续数字串的识别中，与传统HMM在持续时间模型上的错误假设有关的删除与插入错误所占比例可达24．23％。基于此，在Viterbi解码中引入持续时间模型信息。对多种带参函数分布的持续时间模型在理论和实验上的比较分析都证明了Gamma分布更能精确反映汉语字模型的持续时间特性。文中还在外惩罚模型的基础上提出预理分段内惩罚持续时间模型和全局内惩罚持续时间模型两种改进算法。实验表明，结合持续时间模型的语音识别算法可以有效地减少删除与插入错误率，使总体识别错误率比基带系统减少了47．74％。相似文献

6.

基于音频的数字媒体内容分析及其可视化

张田李嵩高畅邱荣发李海峰《燕山大学学报》2010,34(2):100-105

为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。相似文献

7.

语音识别中基于MCE准则的CHMM学习方法

赵力邹采荣吴镇扬《东南大学学报(自然科学版)》2000,30(3):21-25

研究了用于ＣＨＭＭ的ＭＣＥ学习方法,提出了简单形式的识别函数、误差函数、扣池数等的定义方法以及总损失函数的最小化方法。通过对非特定人汉语连续语音识别实验,证明了提出了的函数形式和损失函数最小化方法对ＣＨＭＭ的ＭＣＥ学习的有效性。相似文献

8.

语音识别中基于模糊聚类分析的参数聚类 总被引：1，自引：0，他引：1

徐向华朱杰郭强《上海交通大学学报》2004,38(12):2086-2088,2093

为减少语音识别中声学模型的参数量，提高参数训练的鲁棒性，基于声学决策树结构，提出利用模糊聚类分析方法对模型参数聚类，包括高斯聚类和方差共享．对大词汇量汉语连续语音识别的实验结果表明：高斯模糊聚类使高斯数减少25％时，识别率提高了0．15％．进一步做模糊方差共享，当方差减少到初始模型的24％，与同样参数量的未进行聚类的模型相比，误识率下降了3．01％，证明了模糊聚类分析在语音参数聚类中的有效性．相似文献

9.

基于BP神经网络的非特定人语音识别算法研究

戚龙赵丹《科学技术与工程》2017,17(31)

当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。相似文献

10.

大词汇量环境噪声下的多模态视听语音识别方法

下载免费PDF全文

吴兰杨攀李斌全王涵《广西科学》2023,30(1):52-60

视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。相似文献

11.

噪声环境中基于HMM模型的语音信号端点检测方法 总被引：7，自引：1，他引：6

朱杰韦晓东《上海交通大学学报》1998,32(10):14-16

在噪声环境下如何提高语音信号端点检测的准确性是自动语音识别（ＡＳＲ）研究中的一个重要课题．常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下,检测性能不够理想．讨论了一种基于ＨＭＭ模型的语音信号端点检测方法．先用训练的方法生成背景噪声和废料的模型,再用Ｖｉｔｅｒｂｉ解码算法对待测信号进行处理,并给出了具体的实现方法．实验测试结果表明,基于ＨＭＭ的端点检测方法的检测性能接近于人工检测,方法是有效的．相似文献

12.

大词表孤立词语音识别的快速搜索算法

梁维谦原道德丁玉国《清华大学学报(自然科学版)》2011,(1):101-104,110

在大词表孤立词语音识别中,Viterbi搜索是时间消耗的主要因素。为改善基线系统性能,根据汉语孤立词识别的特点,提出了一种基于音节切分的束搜索算法,在音节层和词条层进行剪枝。该算法不增加内存开销。实验结果表明:在词表规模为10 000时,该算法以0.23%的识别率下降率为代价,将Viterbi搜索的时间消耗降低为基线系统的26.73%;相对于小词表,该算法在大词表情况下对系统性能的改善尤为明显。相似文献

13.

多模式语音端点检测

刘鹏王作英《清华大学学报(自然科学版)》2005,45(7):896-899

在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。相似文献

14.

一种改进的混合型语音识别方法 总被引：2，自引：1，他引：1

胡光锐林昱弘《上海交通大学学报》1994,28(6):77-83

提出了一种改进的ＨＭＭ语音识别方法，其主要特点是引入了加权函数算法，以减少系统的误识率，实验结果表明，这种识别方法不仅能提高系统的识别率，而且所需训练样本少。相似文献

15.

一种高识别率的语音密码锁

林晓钢汪文林何渝郭永彩《重庆大学学报(自然科学版)》2008,31(3):307-310

采用基于统计模型的隐马尔可夫模型(hidden Markov model,HMM)来描述语音模型,进行语音模型库训练,并使用模板匹配的Viterbi算法进行语音识别,实现了以凌阳16位单片机SPCE061A为核心的语音密码锁系统,包括键盘模块、电源模块、门锁控制模块、LCD显示模块。该密码锁将语音密码和键盘密码技术相结合以保证系统安全性,通过测试,系统对特定人语音识别率为98%。相似文献

16.

基于自回归模型的加性噪声环境稳健语音识别

刘敬伟王作英肖熙《清华大学学报(自然科学版)》2006,46(1):50-53

为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。相似文献

17.

基于离散HMM的非特定人关键词提取语音识别系统 总被引：2，自引：0，他引：2

汪鹏刘加刘润生《吉林大学学报(理学版)》2003,41(3):347-351

设计了一个基于离散隐含马尔可夫整词模型的非特定人汉语小词表关键词提取语音识别系统, 提出一种基于对前向、后向搜索得到的关键词假设做二次识别的置信度策略. 将该置信度用于关键词提取系统的说话验证, 得到了良好效果. 相似文献

18.

有限词汇,特定人,商品化的英语语音识别系统

姚萝姑《上海交通大学学报》1996,30(6):141-146

介绍了一个在微机上实现的有限词，特定人语音识别系统，该系统采用连续，Ｍ元高斯混合密度的隐式马尔柯夫模型（ＣＤＨＭＭ）为识别方法，以修改后的ＢａｕｍＷｅｌｃｈ方法为训练重估算法，文中提出了对语音特征矢量非线性归一化预处理，和对训练数据不足的ＨＭＭ模型特征空产是进行后处理修正的算法，还提出了一种基于语音知识的模型初始化的方法，经实验证明，系统的识别率可以达到９０％以上。相似文献

19.

基于语音识别的救援机器人听觉导航方法

孙昊刘作军杨鹏董爱龙《北京科技大学学报》2012,(1):71-75

在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合现有的语音识别技术,开发出基于听觉的救援机器人导航系统.该系统使机器人可以在全局运动控制中跟踪幸存者的呼救声并向幸存者移动.通过相关实验验证了基于听觉的救援机器人导航方法的可行性. 相似文献

20.

汉语语音音素分割的一种新方法 总被引：3，自引：0，他引：3

王宁万旺根余小清《上海大学学报(自然科学版)》2002,8(2):116-118

音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 ,取得了较好的结果相似文献