期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

21.

游展肖熙王作英《清华大学学报(自然科学版)》2009,(4)

针对目前连续语音识别中广泛使用的齐次HMM(hidden Markov model)模型识别精度低的现状,该文提出了三音子DDBHMM(duration distribution based HMM)识别方法。根据汉语的特点,设计了适用于连续语音识别的三音子。描述了识别中使用的MLSS(most likely statesequence)准则。设计了识别网络并阐明了用于三音子识别的帧同步识别算法。将三音子DDBHMM识别方法与三音子齐次HMM识别方法和双音子DDBHMM识别方法进行了实验对比,结果表明:采用三音子DDBHMM可以使得识别错误率分别下降0.95%和2.29%。说明该方法能够显著地改进连续语音识别性能。相似文献

22.

连续语音的三音子DDBHMM识别方法

游展肖熙王作英《清华大学学报(自然科学版)网络.预览》2009,(4)

针对目前连续语音识别中广泛使用的齐次HMM(hidden Markov model)模型识别精度低的现状,该文提出了三音子DDBHMM(duration distribution based HMM)识别方法。根据汉语的特点,设计了适用于连续语音识别的三音子。描述了识别中使用的MLSS(most likely state sequence)准则。设计了识别网络并阐明了用于三音子识别的帧同步识别算法。将三音子DDBHMM识别方法与三音子齐次HMM识别方法和双音子DDBHMM识别方法进行了实验对比,结果表明:采用三音子DDBHMM可以使得识别错误率分别下降0.95%和2.29%。说明该方法能够显著地改进连续语音识别性能。相似文献

23.

基于自回归模型的加性噪声环境稳健语音识别

刘敬伟王作英肖熙《清华大学学报(自然科学版)》2006,46(1):50-53

为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。相似文献

24.

基于特征有序对量化表示的文本分类方法 总被引：2，自引：0，他引：2

任纪生王作英《清华大学学报(自然科学版)》2006,46(4):527-529

文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序。该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所呈现出的语言特征顺序信息。运用向量空间质心法,分别依据词对和词类对表示文本并在3个数据集上进行实验。结果表明性能优于基于单纯词或单纯词类的文本表示方法,宏平均F1值绝对提高分别为3%~4%和5%~7%(相对改善分别是4%~5%和8%~10%)。由此说明特征顺序信息对提升文本分类性能具有重要作用。相似文献

25.

多模式语音端点检测

刘鹏王作英《清华大学学报(自然科学版)》2005,45(7):896-899

在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。相似文献

26.

带拼音纠错的汉语音字转换技术 总被引：3，自引：0，他引：3

张瑞强王作英张建平《清华大学学报(自然科学版)》1997,(10)

提出了一种基于统计和规则的混合方法来实现汉语音字转换。利用汉语的语法规则，在统计语言模型中采用了两种基于词和词性的混合语言模型。在实验中，将这两种混合语言模型与基于词的语言模型进行了比较。实验证明，在语言模型中引入词性后，提高了音字转换正确率。考虑了出现拼音错误时的音字转换问题，提出了一种拼音纠错方法来纠正错误。实验证明，当拼音正确率高于８５％时，这种带纠错的音字转换方法可以提高音字转换正确率。相似文献

27.

Semantic Model for Voice Controlled Telephone Dialing and Inquiry Systems

张建平王作英《清华大学学报》2000,5(2):217-221

Introduction　Forvoicecontrolledtelephonedialingandinquirysystems,wordspottingisanimportanttechnologytodetectsomespecificwords(keywords)embeddedincontinuousspeech.HigginsandWohlford[1]definedfiltertemplatestorepresentnonkeywordspeechandproposedadynamictimewarping(DTW)basedcontinuousspeechrecognition(CSR)methodtodealwiththekeywordspottingproblem.Recently,hiddenMarkovmodel(HMM)basedkeywordrecognizersusingtheCSRmethodhavebeenreported[2,3].However,thesekindsofrecognizerscanonlydealwiththespo… 相似文献

28.

Stream Weight Training Based on MCE for Audio-Visual LVCSR 总被引：2，自引：0，他引：2

刘鹏王作英《清华大学学报》2005,10(2):141-144

In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion isdiscussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice rescoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental results show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments. 相似文献

29.

Robust Voice Command Understanding and Error Tolerance Algorithm Based on Word Graph Expansion 总被引：1，自引：0，他引：1

陈俊燕李涓子王作英《清华大学学报》2003,8(2)

A novel word graph expansion algorithm for voice command understanding is presented as the basis of a more accurate and robust voice command system. Tests show that the algorithm has much better performance than the generally-adopted N-best algorithm while maintaining high computational efficiency. Also the error tolerance method used to improve the robustness of the voice command understanding module further decreases the understanding error rate (UER) to 16. 6% with the computational efficiency almost unchanged compared to the case without error tolerance. 相似文献

30.

利用段长信息的改进连续语音识别算法 总被引：1，自引：1，他引：1

赵庆卫王作英《清华大学学报(自然科学版)》1997,(10)

以基于段长分布的隐含Ｍａｒｋｏｖ模型为基础，提出了一种改进的帧同步束搜索连续语音识别算法，使段长信息在连续语音识别中得到充分有效的利用，并与原算法作了比较。在该算法的具体实现上，建立了状态的局部路径组和全局活跃路径两种数据结构，并采用了帧同步快速实时算法来处理局部路径的剪枝和跳转。说明了段长参数的估计方法。介绍了非特定人大词汇量连续语音识别的实验，实验结果表明，利用段长信息改进识别算法比原识别算法字的误识率降低了６％。相似文献