期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

董丽娜何怡叶卫平《北京师范大学学报(自然科学版)》2015,(5):469-474

采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC. 相似文献

2.

基于发音特征的发音偏误趋势检测研究

屈乐园解焱陆张劲松《北京大学学报(自然科学版)》2017,53(2)

为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。相似文献

3.

基于特征比较和模拟退火-遗传算法的普通话音素评分模型

王健关添叶大田《清华大学学报(自然科学版)》2012,(6):880-884

为了帮助发音困难者障碍者和外语学习者矫正普通话发音错误,提出基于Mel频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)特征比较和模拟退火-遗传算法(simulated annealing genetic algorithm,SAGA)的普通话音素评分模型。该模型采用动态时间弯折(dynamic timewarping,DTW)算法对普通话音素进行相似度比对,并基于SAGA评分机制对发音进行自动评分。本文对比了不同优化算法(SAGA和局部优化算法)、不同DTW算法对语音评分的影响。结果发现:SAGA评分模型下的音素评分正确率大于94%,远远优于局部优化算法。此外,在SAGA评分模型下,搜索路径为平行四边形的改进DTW算法具有最优的评分结果。因此,基于MFCC和SAGA的评分模型适用于普通话音素评分。相似文献

4.

基于优化检测网络和MLP特征改进发音错误检测的方法

袁桦钱彦旻赵军红刘加《清华大学学报(自然科学版)》2012,(4):557-560,570

该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。相似文献

5.

音源特征用于提高话者确认系统的鲁棒性

吴礼福姚志强戴蓓缮李辉《中国科学技术大学学报》2006,36(5):476-480

给出了一种采用音源特征信息提高以声道倒谱参数为特征的话者确认系统噪声鲁棒性的方法,提取了两类音源特征参数：短时（单帧）特征参数和较长时（多帧）特征参数,并分别构建了两个利用音源特征参数的与文本无关的话者确认辅助子系统.采用线性加权对主、辅子系统的输出进行融合.在NIST＇03数据库上100个男性话者的对比实验表明,音源特征参数具有良好的噪声鲁棒性,声道特征与音源特征具有较强的互补性,尤其是在较强的噪声背景下,利用音源特征可以有效地提高以声道倒谱参数为特征的确认系统的鲁棒性. 相似文献

6.

区分性模型在英语自动发音评测中的应用

宋寅梁维谦《清华大学学报(自然科学版)》2010,(4)

为了改善英语自动发音评测中所使用的声学模型,提高评测的准确性,分别采用区分性训练中的最大互信息(MMI)和最小音素错误(MPE)算法训练出隐含Markov声学模型,并采用最大似然线性回归(MLLR)对模型进行非母语说话人的口音自适应,最后应用到英语自动发音评测系统中。实验结果表明:分别对MMI和MPE方法训练所得模型作自适应后的机器总分与人工评分之间的相关度在说话人层次上分别提高了3.3%和5.2%,证明了在英语发音评价中区分性模型的实用性和有效性。相似文献

7.

汉语语音声学特征复合的研究

《云南大学学报(自然科学版)》2010,(Z1)

抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%～7%的改善. 相似文献

8.

基于MFCC特征组合参数的说话人识别研究

曾霞霞徐戈吴征远《集美大学学报(自然科学版)》2016,(4):317-320

为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数（MFCC）与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。相似文献

9.

基于多特征融合的GMM汉语普通话口音识别

《华中科技大学学报(自然科学版)》2015,(Z1)

提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%. 相似文献

10.

基于DNN的发音偏误趋势检测

《清华大学学报(自然科学版)》2016,(11)

正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏误趋势检测系统。为了进一步提高系统的性能,该文应用深度神经网络进行声学建模,比较Mel频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测分析系数(perceptual linear predictive analysis,PLP)和Mel滤波器组系数(Mel filter bank,FBank)3种声学特征参数,并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明:DNN-HMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏误趋势,3种声学特征有不同表现,联合系统取得最高性能,最终性能为:错误拒绝率5.5%,错误接受率35.6%,检测正确率88.6%。相似文献

11.

英语、汉语塞音浊音起始时间（VOT）对比以及汉族学生习得英语塞音研究 总被引：4，自引：0，他引：4

郑鲜日李英浩《长春师范学院学报》2007,26(1):92-95

汉语和英语中塞音呈现不同的区别特征,汉语的塞音以送气(aspiration)与否作为区别特征,没有清浊之分,因此汉语的塞音VOT都为正值;英语中则以清浊(voicing)作为区别特征,因此,英语浊塞音的VOT为负值。两种语言塞音VOT分布的差异,使得以汉语为母语的英语学习者在生成英语浊塞音时表现出中介语的特点。相似文献

12.

基于Viterbi解码的中文合成音库韵律短语边界自动标注

杨辰雨朱立新凌震华戴礼荣《清华大学学报(自然科学版)》2011,(9):1276-1281

该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model,HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F-score值达到77.64%,超过了人工标注时不同标注人员之间的一致性水平;另外该方法可以方便地增加待标注韵律属性,具有良好的扩展性。相似文献

13.

广西资源话语音系统

龚娜《玉林师范学院学报》2010,31(3):85-88,118

资源县地处湘桂交界地带,语言状况复杂。作为当地权威方言的资源话语音系统很有特色。它属湘语,具有湘语娄邵片的许多语音特征,如保留浊音;同时又受到西南官话的影响,呈现出向官话靠拢的趋势。相似文献

14.

基于韵律信息的语种辨识系统

下载免费PDF全文

侯丽敏缪炜《上海大学学报(自然科学版)》2009,15(5):441-444

提出利用超声层次上的韵律信息来进行语种辨识.在子词分割的基础上结合元音/辅音检测模型,将语音分割为CⁿV的假音节模型,然后对每个假音节提取一个五维的特征韵律参数.分割结果比传统的分割方法更接近实际的音节结构.在韵律系统中,对所有的语言建立高斯混合模型(GMM),研究模型的离散度和模型间的干扰程度.实验表明,韵律模型对不同的语言、不同的语系和同一语系中不同语言均具有一定的区分效果. 相似文献

15.

基于光流块统计特征的视频异常行为检测算法

余昊a 孙锬锋a b 蒋兴浩a b 《上海交通大学学报》2015,49(8):1199-1204

提出了一种基于光流块统计特征的视频异常行为检测算法.该算法首先对训练集视频序列的光流场进行分块及预处理,而后提取光流块的统计特征,所提取的块统计特征同时包括了光流块的幅度信息和相位信息,通过训练集得到的光流块统计特征训练出对应的正常行为的高斯混合模型(GMM).测试集通过同样的方式提取光流块统计特征,通过计算所提取统计特征以多大的概率属于GMM判定所检测光流块的异常程度.实验结果表明,该算法能够在一定程度上解决运动物体一致性和部分遮挡问题,并提高了异常行为检测的准确率. 相似文献

16.

诵读音声的采录与韵律特征分析

宁威林刘亚丽《中国传媒大学学报》2018,25(1):46-51

通过实地走访调研,以现场录制的诵读音声为实验素材,从实验语音学的角度,采用数字信号处理的方法对素材提取韵律学特征参数,并进行客观定量的数据分析.结果表明该类音声具有: 旋律单一循环,音调平稳,节奏由缓慢到略快,听起来使人安静等特点.为诵读音声的客观分析提供一定的理论基础. 相似文献

17.

基于码本映射和GMM的语音带宽扩展

王迎雪于莹莹赵胜辉匡镜明《北京理工大学学报》2017,37(9):970-974

采用传统的高斯混合模型（Gaussian mixture model,GMM）进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射（codebook mapping,CM）与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象. 相似文献

18.

Modeling Pitch Contour of Chinese Mandarin Sentences with the PENTA Model

《清华大学学报》2012,(2):218-224

In continuous speech,the pitch contour of the same syllable may vary much due to its contextual information.The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis with a method to predict pitch contours for Chinese syllables with different contexts by combining the Classification And Regression Tree (CART) with the PENTA model to improve its prediction accuracy.CART was first used to cluster the syllables’ normalized pitch contours according to the syllables contextual information and the distances between pitch contours.The average pitch contour was used to train the PENTA model with the average contour for each cluster.The initial pitch is required with the PENTA model to predict a continuous pitch contour.A Pitch Discontinuity Model (PDM) was used to predict the initial pitches at positions with voiceless consonants and prosodic boundaries.Initial tests on a Chinese four-syllable word corpus containing 2048 words were extended to tests with a continuous speech corpus containing 5445 sentences.The results are satisfactory in terms of the Root Mean Square Error (RMSE) comparing the predicted pitch contour with the original contour.This method can model pitch contours for Mandarin sentences with any text for speech synthesis. 相似文献

19.

北大博士对双语语音实验研究的新突破

周燕《石河子大学学报(自然科学版)》2004,22(3):248-250

对北京大学近来的博士论文用声学语音学和实验语音学等方法研究双语语音的新进展进行了综合分析，重点对比满汉双语，确定了北京话的“轻音”和“儿化”；对比韩、汉元音、韵律特征确定了两语时长和声调高低的不同，为双语教学提供了权威的语音校正，从而突显了成果的适用价值。相似文献

20.

基于正交混合Gauss模型的脱机手写数字识别 总被引：6，自引：0，他引：6

张睿丁晓青刘海龙《清华大学学报(自然科学版)》2002,42(1):19-22

在基于统计方法的脱机手写数字识别中 ,为更加有效地描述特征的类条件概率分布 ,设计出性能优良的 Bayes分类器 ,采用了混合 Gauss模型。为减少模型的参数 ,通常假设各 Gauss分量的协方差矩阵为对角阵。由于各维特征之间统计相关 ,因此需要大量的 Gauss分量才能较好地描述特征的类条件概率分布 ,使得混合模型的阶数较高。为降低模型的阶数 ,采用了正交混合 Gauss模型 ,即先对各类别的特征分别进行 KL 变换 ,再将变换后的特征用混合 Gauss模型来表示。其中混合 Gauss模型的参数可以通过 EM算法进行估计。最后 ,在 NIST (National Institute of Standards andTechnology)手写数字样本集上对该方法的识别性能进行了验证相似文献