期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Nonlinear Time-Frequency Distributions of Spectrum Energy Operator in Large Vocabulary Mandarin Speaker Independent Speech Recognition System

王作英《清华大学学报》2003,8(6):667-671

This work demonstrates the use of the nonlinear time-frequency distribution (NL TFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processlng stage and using NL TFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test. 相似文献

2.

Adaptive Compensation Algorithm in Open Vocabulary Mandarin Speaker-Independent Speech Recognition

Fadhil H.T.Al-dulaimy 王作英田野《清华大学学报》2002,7(5)

IntroductionA speech signal is normally mixed with many kindsof noises,which can significantly decrease theperformance of a speech recognizer.The highconcentration of energy in the low frequency rangeobserved for most speech spectra is considered anuisance because it makes less relevant the energyof the signal at middle and high frequencies[1] .　The performance of automatic continuous speechrecognition (ACSR ) systems dramaticallydecreases when they are trained and used indifferent environm… 相似文献

3.

有限词汇,特定人,商品化的英语语音识别系统

姚萝姑《上海交通大学学报》1996,30(6):141-146

介绍了一个在微机上实现的有限词，特定人语音识别系统，该系统采用连续，Ｍ元高斯混合密度的隐式马尔柯夫模型（ＣＤＨＭＭ）为识别方法，以修改后的ＢａｕｍＷｅｌｃｈ方法为训练重估算法，文中提出了对语音特征矢量非线性归一化预处理，和对训练数据不足的ＨＭＭ模型特征空产是进行后处理修正的算法，还提出了一种基于语音知识的模型初始化的方法，经实验证明，系统的识别率可以达到９０％以上。相似文献

4.

利用基因算法训练连续隐马尔柯夫模型的语音识别 总被引：2，自引：0，他引：2

孙放胡光锐《上海交通大学学报》1998,32(6):19-22

为了提高语音识别系统的性能,基于全域优化的思想,提出了一种用于训练连续隐马尔柯夫模型（ＣＨＭＭ）的新算法——基因算法,并将该算法用于语音识别．用该算法训练ＣＨＭＭ,可得到最佳的模型参数,从而提高了语音识别率．利用该算法训练ＣＨＭＭ,不需要对ＣＨＭＭ的每一个参数单独进行估值,能够在一定的程度上提高训练速度．文中阐述了整个算法,给出了计算机模拟结果,并与传统的训练方法进行了比较．相似文献

5.

基于正弦模型的语音识别时频特征

下载免费PDF全文

邢艳玲杨吉斌张雄伟《解放军理工大学学报(自然科学版)》2004,5(1):22-25

为改善语音识别系统的性能,采用时频分布参数来描述语音特征。由于时频分布参数考虑到语音信号内在的非平稳特性,因此能够更准确地描述语音信号的时频特性。对基于正弦模型的多种时频参数(能量谱和幅度加权瞬时频谱)进行了比较,并在基于隐马尔可夫模型的连接词语音识别系统中进行了实验仿真。结果表明,单独采用时频分布参数作为ASR的前端特征并不能改善识别率;而采用标准ASR特征和能量谱时频特征的联合前端特征,可以有效地改善语音识别系统的识别效果。相似文献

6.

噪声环境中基于HMM模型的语音信号端点检测方法 总被引：8，自引：1，他引：8

朱杰韦晓东《上海交通大学学报》1998,32(10):14-16

在噪声环境下如何提高语音信号端点检测的准确性是自动语音识别（ＡＳＲ）研究中的一个重要课题．常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下,检测性能不够理想．讨论了一种基于ＨＭＭ模型的语音信号端点检测方法．先用训练的方法生成背景噪声和废料的模型,再用Ｖｉｔｅｒｂｉ解码算法对待测信号进行处理,并给出了具体的实现方法．实验测试结果表明,基于ＨＭＭ的端点检测方法的检测性能接近于人工检测,方法是有效的．相似文献

7.

基于Viterbi解码的中文合成音库韵律短语边界自动标注

杨辰雨朱立新凌震华戴礼荣《清华大学学报(自然科学版)》2011,(9):1276-1281

该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model,HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F-score值达到77.64%,超过了人工标注时不同标注人员之间的一致性水平;另外该方法可以方便地增加待标注韵律属性,具有良好的扩展性。相似文献

8.

基于遗传算法自适应建立HMM的静脉识别算法

薛定宇贾旭崔建江刘晶《东北大学学报(自然科学版)》2011,32(11):1529-1533

为了准确地对人的身份进行识别,利用图像中脉络延伸方向与脉络间位置的相互联系,将隐马尔科夫模型(HMM)应用于识别系统中,提出了一种基于遗传算法自适应建立HMM的静脉识别算法.图像经预处理后得到静脉的骨架信息,将细化后的静脉图像进行Radon变换,每一静脉对象可表示为一个HMM;对于已知确定的训练样本库,利用遗传算法自适应调整HMM参数,使所有测试图像的观测序列在真实匹配模型中发生的概率值远远大于其在虚假匹配模型中发生的概率值,提高了不同静脉对象的区分度.实验表明,该算法具有较高的正确识别率,并具有良好的实时性. 相似文献

9.

基于瓶颈特征的藏语拉萨话连续语音识别研究

周楠赵悦李要嫱徐晓娜才旺拉姆吴立成《北京大学学报(自然科学版)》2018,54(2):249-254

基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点, 将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中, 可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明, 瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。相似文献

10.

中文连续语音识别系统音素建模单元集的构建

包叶波胡郁刘聪江辉戴礼荣刘庆峰《清华大学学报(自然科学版)》2011,(9):1288-1292,1297

在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元音及其变体对前后接音素协同发音的影响,提出了基于扩展的元音三角图设计问题集(NewQS)的方法。实验表明:NewPS和NewQS结合的识别性能超越了传统的声韵母建模单元集;并且,建模单元数目大幅度的减少给系统后续模块的处理带来了便利。相似文献

11.

基于状态驻留时间的汉语语音分段概率模型 总被引：1，自引：0，他引：1

贾宾朱小燕罗予频胡东成《清华大学学报(自然科学版)》2000,40(1)

为了解决分段概率模型 (SPM)因缺少对时间信息描述而带来的建模精度低的问题 ,提出了状态驻留分段概率模型 (SDSPM)。SDSPM中包含了用伽玛分布表示的状态驻留概率 ,以刻划语音的时间特征。此驻留概率相当于隐马尔可夫模型 (HMM)中的状态转移概率 ,但使 SDSPM描述语音时间特征的能力强于 HMM。SDSPM既改善了 SPM的模型性能 ,同时又避免了 HMM的计算复杂度问题。测试实验证明了 SDSPM模型在汉语语音识别中的有效性。相似文献

12.

基于正交余弦变换域概率主成分分析的嵌入隐马尔可夫人脸识别模型

王华华周越杨杰戈新良《上海交通大学学报》2007,41(6):885-888,893

提出并证明了概率主成分分析作用于正交余弦变换(DCT)域与作用于空域所获得的结果相同.利用DCT变换的快速压缩性能和概率主成分分析的软降维性能来稳定地获取和表示人脸的局部特征,并把得到的特征向量作为嵌入隐马尔可夫模型的观察向量,建立了基于DCT域概率主成分分析的嵌入隐马尔可夫人脸识别模型.该模型应用于不同表情和光照下的人脸识别,取得了较好的实验结果. 相似文献

13.

面向聋儿的计算机言语训练方法及其实现

刘华东吴玺宏迟惠生《北京大学学报(自然科学版)》2004,40(3):444-450

将语音信号处理和语音识别技术应用于聋儿言语训练中,设计并实现了一个适合聋儿使用的言语康复训练系统。根据聋儿言语训练的特点以及语音的声学特征和生理特征的关系,基于语音特征视觉反馈的训练方式,提出了目标训练法和对比训练法。针对聋儿的发音异常和构音异常,设计了从基础训练、构音训练到清晰度训练的计算机言语辅助训练模块。该系统在中国聋儿康复研究中心进行了初步临床实验,在中班和大班聋儿的训练上取得较好效果。实验表明根据目标训练法和对比训练法设计的计算机辅助训练方法能够有效的解决聋儿的发音异常和构音异常。相似文献