首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 484 毫秒
1.
基于小波分析的梅尔频率倒谱参数?   总被引:1,自引:0,他引:1  
采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC.  相似文献   

2.
结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。  相似文献   

3.
隐马尔科夫模型的对数后验概率算法是计算机辅助语言学习系统中用来衡量考生发音质量的重要指标。但在普通话智能测试系统中,传统的后验概率算法与专家评分之间存在比较明显的差距。文章从普通话语音评价的主观标准出发,将普通话发音的语言学知识引入后验概率算法,重构算法的语音识别网络,同时从音素评分模型角度对现有的发音质量评价算法进行改进。  相似文献   

4.
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.  相似文献   

5.
针对Mel频率倒谱系数(Mel frequency cepstralcoefficient,MFCC)特征的说话人确认系统在干净语音环境下具有很高识别率但在噪音环境下识别率急剧下降的缺点,构建了基于感知对数面积比系数(perceptual log area ratio,PLAR)特征的说话人确认系统,并对该系统的噪音鲁棒性进行研究。结果表明:PLAR特征具有较强的噪音鲁棒性。将PLAR与MFCC进行特征域和分数域的融合,利用两者之间存在着的互补性,可有效提高说话人确认系统的识别性能。  相似文献   

6.
语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。  相似文献   

7.
正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏误趋势检测系统。为了进一步提高系统的性能,该文应用深度神经网络进行声学建模,比较Mel频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测分析系数(perceptual linear predictive analysis,PLP)和Mel滤波器组系数(Mel filter bank,FBank)3种声学特征参数,并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明:DNN-HMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏误趋势,3种声学特征有不同表现,联合系统取得最高性能,最终性能为:错误拒绝率5.5%,错误接受率35.6%,检测正确率88.6%。  相似文献   

8.
采用模式匹配的识别技术,建立孤立词语音识别系统,基于MATLAB环境对O~9这10个数字语音进行仿真实验.在提取MFCC的基础上,整合差分倒谱参数作为语音的特征参数,并对现有的DTW算法加以改进,节省了系统匹配的计算时间,使其具有一定的鲁棒性.分别采集普通话语音和湖北、闽南、安徽3地方言的语音数据,体现了数据的完备性和系统的适用性.实验结果表明,基于改进型DTW算法和MFCC的语音识别系统具有较高识别率,取得了良好效果.  相似文献   

9.
基于MFCC和GMM的个性音乐推荐模型   总被引:1,自引:1,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%.  相似文献   

10.
根据Android应用在运行期的耗电时序波形与声波信号类似的特点,该文提出了一种基于Mel频谱倒谱系数(Mel frequency cepstral coefficients,MFCC)的恶意软件检测算法。首先计算耗电时序波形的MFCC,根据MFCC的分布构建Gauss混合模型(Gaussian mixture model,GMM)。然后采用GMM对电量消耗进行分析,通过对应用软件的分类处理识别恶意软件。实验证明:应用软件的功能与电量消耗关系密切,并且基于软件的电量消耗信息分析可以较准确地对移动终端的恶意软件进行检测。  相似文献   

11.
以生命线工程网络系统造价为优化目标,网络拓扑结构为优化参数,网络节点抗震连通可靠度为约束条件,建立生命线工程网络系统的抗震拓扑优化模型.同时,介绍了利用递推分解算法来获得单元重要度的方法,进而利用遗传算法、模拟退火算法和遗传-模拟退火混合算法,进行了生命线网络系统的抗震拓扑优化分析.其中,遗传算法通过对种群选择、交叉和变异操作不断进化以获得优化解,模拟退火算法则通过扰动当前解产生新解来获得优化解,遗传-模拟退火混合算法则通过将遗传算法中的变异操作以模拟退火操作代替获得优化解.利用三种优化方法对两个算例进行生命线工程网络系统的抗震拓扑优化分析.计算结果对比表明,遗传-模拟退火混合算法具有最好的优化能力.  相似文献   

12.
介绍了一种基于差别子空间的语音识别算法,并从最优标准和最优解的角度,在理论上论证了该算法与传统的DTW算法的优劣。然后用MATLAB实现了这两种算法,并进行了大量的孤立词语音识别实验,理论和实验表明,基于差别子空间的语音识别算法非常有效,识别率在多次训练时高于传统的DTW算法。  相似文献   

13.
一种新的全局优化算法——统计归纳算法   总被引:14,自引:0,他引:14  
在多极值问题的优化领域 ,主要有模拟退火算法(SA) ,遗传算法 (GA) ,人工神经网络 (ANN)算法 ,它们都是基于对自然现象模仿的算法。该文从更基本的优化思想出发 ,基于概率论提出了一种新的全局优化算法——统计归纳算法 (SIA)。在一些标准测试函数以及“货郎担问题”(TSP)上的计算结果表明 ,该算法在智能性 (所需的函数计算次数 )和解的全局性方面都远远好于 SA和 GA。在中国 144个城市的 TSP问题实例中 ,它甚至很快就找到了比参考计算中给出的“目前已知的最优路径”更短的路径。从这一算法思想的角度 ,阐述了 SA和 GA为何对全局优化问题有效 ,以及SA和 GA各自固有的不足之处  相似文献   

14.
基于HTK的普米语孤立词的识别,通过对特定发音人和非特定发音人的语音进行特征分析、预处理、提取MFCC特征参数,从而建立每个普米词的HMM模型,最后采用Viterbi算法进行模型的训练和匹配.实验表明:对特定发音人和非特定发音人,随着普米词个数的增加,识别率虽有所下降,但是变化很小,识别率均超过了95.00%,识别效果很好.语料的信噪比和发音人的发音稳定性是导致识别率下降的重要原因.  相似文献   

15.
基于引力搜索和粒子群混合优化算法的T-S模型辨识   总被引:2,自引:2,他引:0  
提出了基于引力搜索(GSA)和粒子群(PSO)混合优化算法(GSAPSO)的T-S模型全局优化辨识方法.该方法充分整合GSA的勘探能力和PSO的开采能力,在GSA中引入PSO的个体最优值和群体最优值,同时改进惯性权重调整算法.T-S模型辨识分为结构辨识和参数辨识,采用聚类方法和GSAPSO算法同时辨识模型的结构和参数,从而实现全局优化辨识.仿真实例和比较分析证明了GSAPSO较标准的PSO和GSA有更强的全局优化能力和更高的辨识精度.  相似文献   

16.
为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。  相似文献   

17.
针对概率模体发现算法中非树形子图的挖掘和在得分函数最大化的过程中得分函数值计算的2个难点.首先提出基于划分的非树形子图的搜索算法,其次将子图同构应用于最小错配的求解以缩小智能优化算法对得分函数求解的解空间,最后将基于模拟退火算法和遗传算法的混合算法应用于得分函数的求解过程.在大肠杆菌基因调控网络中的实验结果表明,与其他算法相比,混合智能算法可以大大减少非树形子图的搜索时间,并以相对较快的收敛速度收敛到一个较优的解,因此所提出的方法有效地提高了概率模体发现的效率.  相似文献   

18.
藏语特征提取算法是藏语语音识别系统中最为关键的一个环节。文章在分析藏语发音特点的基础上,建立了基于模拟人耳听觉系统的Mel倒谱系数(MFCC)特征提取算法,然后通过LDA信息压缩算法,对提取的特征数据进行压缩,在降低维数的同时提高了识别率和运算效率,总结出了符合藏语语音特点的LDA-MFCC特征提取算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号