首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对Mel频率倒谱系数(Mel frequency cepstralcoefficient,MFCC)特征的说话人确认系统在干净语音环境下具有很高识别率但在噪音环境下识别率急剧下降的缺点,构建了基于感知对数面积比系数(perceptual log area ratio,PLAR)特征的说话人确认系统,并对该系统的噪音鲁棒性进行研究。结果表明:PLAR特征具有较强的噪音鲁棒性。将PLAR与MFCC进行特征域和分数域的融合,利用两者之间存在着的互补性,可有效提高说话人确认系统的识别性能。  相似文献   

2.
语音识别GMM-HMM (Gaussian mixture modelhidden Markov model)在使用最大似然状态序列(most likely state sequence,MLSS)准则得到观测量的最佳状态序列时,只考虑了具有语音帧最大似然值的状态信息,而忽略了其他次优状态对当前帧的影响,造成信息的丢失,从而降低了系统识别率。为更好地利用声学状态的似然值信息,该文提出了声学状态似然值得分模型和监督状态模型,并基于以上模型得到了状态似然聚类特征(state likelihood cluster feature,SLCF)、监督状态特征(supervised state feature,SSF)。这2种特征反映了MFCC (Mel frequency cepstrum coefficient)声学特征关于HMM状态的一种信息。实验表明,将SLCF、SSF分别与MFCC融合,新的特征可提高语音识别效果。融合了SLCF、SSF后,与GMMHMM只使用MFCC相比,孤立字识别系统的总错误率分别相对下降了6.10%、9.66%,连续语音识别系统的总错误率分别相对下降了2.53%、11.05%。  相似文献   

3.
为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数(MFCC)与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。  相似文献   

4.
语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。  相似文献   

5.
电话信道下应用DMFCC进行说话人识别   总被引:2,自引:0,他引:2  
鉴别性Mel频率倒谱系数(DMFCC)是一种修正的Mel频率倒谱系数(MFCC),其更加强调语音频谱各个子带携带的鉴别性信息,采用自适应的非均匀的滤波器组设置。在宽带信号应用中,DMFCC的作用和效果已经被证明;但在窄带信号应用中,DMFCC还鲜见有成功应用的例子。该文在电话信道下对应用DMFCC进行说话人识别研究,在美国国家标准技术研究院(NIST)2006年说话人识别评测Female核心测试集上,以MFCC作为特征参数的系统的等错误率为7.57%,以DMFCC作为特征参数的系统的等错误率为7.25%,而采用基于逻辑自回归的线性融合方法把基于两种不同特征的系统在分数域进行融合后系统的等错误率可达到6.31%,相对于基于MFCC的系统等错误率下降16.6%。实验表明,在电话信道下直接应用DMFCC可小幅度提高性能;理论分析以及实验结果表明:二者存在一定的互补性,即把DMFCC和MFCC融合应用能够大幅度提高电话信道下说话人识别的性能。  相似文献   

6.
电话语音的多说话人分割聚类研究   总被引:2,自引:0,他引:2  
为了提高电话多人语音中提取的单人语音纯度,即多说话人分割聚类处理的性能,该文在传统的分步分割聚类算法机制上增加了重分割处理,提出逐级算法增强处理机制: 在分割部分,该文提出了一种基于Bayesian信息准则的分割算法,融合基于不同距离测度检测得出的分割点提高了分割点检测率;在聚类部分提出了基于BIC和交叉似然比准则(CLR)的分层聚类算法;在重分割部分引入和改进了进化隐Markov模型算法精化分割结果.该文在美国国家标准技术局(NIST) 1998年度多说话人识别数据库上进行实验,聚类后性能"类纯度"比传统算法提高了10%.  相似文献   

7.
针对现有的说话人识别方法对环境噪声较为敏感的问题,提出了一种与文本无关的单训练样本说话人识别方法。该方法能够提取语音时频谱的局部特征,此特征不仅对白噪声、高斯噪声、粉红噪声有很强的鲁棒性,而且能够充分反映说话人的基本发声特性。针对该局部特征的基本特点,给出了适合该局部特征的贝叶斯决策方法。对英文与汉语语音数据库的仿真实验表明,该识别方法可以实现单训练样本下的说话人识别,识别精度明显高于现有的Mel频率倒谱系数(MFCC)与线性预测编码(LPCC)语音特征,而且对白噪声等各类环境噪声有较高的鲁棒性。  相似文献   

8.
基于MFCC的语音情感识别   总被引:4,自引:0,他引:4  
情感语音中携带着丰富的信息,在人机交互领域有着广阔的应用.Mel频率是基于人耳听觉特性提出来的.它与Hz频率成非线性对应关系.Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域.由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降.因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC.针对该问题进行了研究,修正了Hz-Mel非线性对应关系,提升了中高频系数的计算精度,并将其作为低频MFCC的补充,应用到语音情感识别中.实验证明,改进之后的算法与经典算法比较,在不同的特征组合上识别率都有不同程度的提高,从而证明了Mid MFCC特征计算方法的有效性.  相似文献   

9.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

10.
Mel频率倒谱系数提取及其在声纹识别中的作用   总被引:8,自引:0,他引:8  
从说话人的语音信号中提取出说话人的个性特征是声纹识别的关键。本文介绍了一种基于HMM的声纹识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征参数,取得了很好结果。  相似文献   

11.
病理语音具有强烈的非平稳性和突变性特点,较难分析。S变换具有良好的时频分辨率和时频定位能力。该文将S变换与人耳听觉的Mel特性结合,提出一种能够突出发声器官病变的病理语音特征MSCC(Mel S-transform cepstrum coefficients)。在NCSC语料库上,通过与经典语音倒谱特征MFCC(Mel frequency cepstrum coefficients)和当前常用声学特征的对比,表明MSCC特征对语音中动态、快变的病理信息具有更强的刻画能力。此外,选用F-Score方法对特征进行评价和采用粒子群算法进行特征筛选,MSCC表现出了更好的分类性能。可见,MSCC特征可以为临床诊断提供病理语音的高精准分析。  相似文献   

12.
在语音识别中最常提取的特征参数是Mel频率倒谱系数(MFCC)。但Mel频率倒谱系数不能很好的反映语音信号的动态特性。针对这种缺点,对常规的MFCC进行改进,采用小波变换替代MFCC提取过程中FFT变换,得到改进后的MFCC。采用这种方法后,识别率有了很大的提高。  相似文献   

13.
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.  相似文献   

14.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。  相似文献   

15.
根据Android应用在运行期的耗电时序波形与声波信号类似的特点,该文提出了一种基于Mel频谱倒谱系数(Mel frequency cepstral coefficients,MFCC)的恶意软件检测算法。首先计算耗电时序波形的MFCC,根据MFCC的分布构建Gauss混合模型(Gaussian mixture model,GMM)。然后采用GMM对电量消耗进行分析,通过对应用软件的分类处理识别恶意软件。实验证明:应用软件的功能与电量消耗关系密切,并且基于软件的电量消耗信息分析可以较准确地对移动终端的恶意软件进行检测。  相似文献   

16.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

17.
语音的特征提取是说话人识别系统中的关键问题。在传统的Mel频率倒谱系数(MFCC)参数的基础上,提出一种改进的MFCC特征提取算法。该算法着眼于语音的前端处理,在预处理阶段,利用SWCE窗函数,对信号进行多窗频谱估计。并对得到的频谱进行平滑处理,得到信号的谱包络。然后对信号的谱包络进行计算,得到改进的MFCC参数。实验表明,在不同噪声环境下,与传统的MFCC算法相比,改进的算法识别率提高四个百分点以上。  相似文献   

18.
语音识别和说话人识别中各倒谱分量的相对重要性   总被引:37,自引:0,他引:37  
采用增减特征分量的方法研究了MFCC各维倒谱分量对说话人识别和语音识别的贡献。使用DTW测度,在标准英文数字语音库上的实验表明,最有用的语音信息包含在MFCC分量C1C12之间,最有用的说话人信息包含在MFCC分量C2C16之间。MFCC分量C0C1包含有负作用的说话人信息,将其作为特征会引起识别率的降低。低阶MFCC分量较高阶分量更容易受加性噪声和卷积噪声干扰。  相似文献   

19.
基于MFCC和GMM的个性音乐推荐模型   总被引:1,自引:1,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%.  相似文献   

20.
为了有效提取语音特征,提高说话人识别的准确率,系统采用基于有限状态机的端点检测算法对原始语音做VAD处理,提出了新的特征组合参数:基于人的听觉特性的MFCC参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率,并将它们作为说话人识别系统的特征参数,建立了基于VQ的识别模型.实验表明:本文系统使用VAD,使系统的识别率提高了5%8%,较单独使用MFCC参数的说话人识别系统的识别率提高了2%3%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号