首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在语音识别中最常提取的特征参数是Mel频率倒谱系数(MFCC)。但Mel频率倒谱系数不能很好的反映语音信号的动态特性。针对这种缺点,对常规的MFCC进行改进,采用小波变换替代MFCC提取过程中FFT变换,得到改进后的MFCC。采用这种方法后,识别率有了很大的提高。  相似文献   

2.
基于MFCC的语音情感识别   总被引:4,自引:0,他引:4  
情感语音中携带着丰富的信息,在人机交互领域有着广阔的应用.Mel频率是基于人耳听觉特性提出来的.它与Hz频率成非线性对应关系.Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域.由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降.因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC.针对该问题进行了研究,修正了Hz-Mel非线性对应关系,提升了中高频系数的计算精度,并将其作为低频MFCC的补充,应用到语音情感识别中.实验证明,改进之后的算法与经典算法比较,在不同的特征组合上识别率都有不同程度的提高,从而证明了Mid MFCC特征计算方法的有效性.  相似文献   

3.
Mel频率倒谱系数在语音识别中是常用的特征参数之一。本文对Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)的提取过程进行了详细分析,找出其两个主要的缺点。并使用线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和小波变换分别对其两个不同的缺点进行了改进。  相似文献   

4.
基于HMM的孤立字识别   总被引:1,自引:0,他引:1  
本文以HMM(隐马尔可夫模型)为基础研究孤立字的汉语语音识别。孤立字的汉语语音样本首先经过人工切分去除寂静段,然后进行分帧处理;对每一帧语音进行频域预加重和时域汉明窗加权处理后,提取该帧的39维的MFCC混合参数(Mel频率倒谱参数);把该字所有帧的MFCC混合参数作为该字HMM模型的观察序列对其进行训练。通过在小人群范围内对0-9这十个孤立数码语音的大量实验,得到了很好的识别效果。  相似文献   

5.
为提高识别率和识别效率,采用双门限过零率和短时能量作为端点检测的依据,提取Mel频率倒谱系数作为语音特征参数,并使用DTW算法进行模式匹配.由于传统DTW算法计算量大,所以采用局部路径约束和区域约束进行改进,并用Matlab对改进后的DTW算法进行了仿真.实验证明该算法对孤立词语音识别能够达到较好的识别结果.  相似文献   

6.
Mel频率倒谱系数(MFCC)是语音特征提取的一种常用方法。因其能够充分模拟人耳的听觉系统,具有较高的识别精度,所以在语音识别中得到了广泛的应用。本文针对MFCC在语音识别中对中高频区域识别精度不高的固有缺陷,通过将MFCC、Mid MFCC、IMFCC与主成分分析(PCA)相结合,提出了一种在全频域实现精确且快速的识别方法,并进行了仿真实验验证。  相似文献   

7.
针对广播节目在传输过程中易受干扰的问题,提出了基于动态时间轴归整(DTW)算法的多词判别法语音识别技术,根据该方法通过提取Mel尺度倒谱参数,设计出基于DSP的广播节目抗干扰系统,实现广播信号的自动判别,实验表明该系统抗干扰能力显著增强.  相似文献   

8.
介绍了一个实时语音识别系统的设计与实现。该系统硬件以TI生产的TMS320C5409 DSP为核心,配置编解码器、外部存储器和逻辑控制电路等。软件算法采用了由能量和过零率相结合的端点检测、Mel频率倒谱系数特征提取和径向基函数神经网络构成的语音识别算法。对汉语数字孤立词进行了实时识别实验,识别结果通过异步通信串口送到PC上实时显示。实验结果证明了系统的有效性。  相似文献   

9.
语音控制作为一种新型的人机交互手段,给用户带来更多的操作体验,在很多特定场景中具有必要性。本文将梅尔倒谱系数(MFCC)作为语音特征参数,采用动态时间规整算法(DTW)进行模式识别和分类,实现了小样本孤立词汇的实时识别,具有高识别率。在基本算法的基础上进行了边界条件改进,克服了端点检测缺陷。在语音特征提取上,分析比较了线性预测系数(LPC)和梅尔倒谱系数(MFCC)作为特征参数的优缺点,最后选定基于人耳听觉特性的MFCC作为语音特征参数。语音信号采用NI公司USB-6218采集卡将数据直接传输至MATLAB开发平台,在MATLAB集成环境下实现了语音识别程序。实验结果表明,系统可以实现6个特定的孤立词识别,满足实时性和准确性要求。  相似文献   

10.
采用基于听觉特性的Mel频率倒谱系数作为说话人识别特征参数,对概率神经网络进行了描述,并使用该网络进行了文本无关说话人识别研究.实验表明,对20名说话人,用7秒语音训练,3秒语音识别时,该方法可达到96.7%的正确识别率.  相似文献   

11.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

12.
用于语音识别的减谱结合RASTA的抗噪声方法   总被引:1,自引:0,他引:1  
主要论述加性和卷积性噪声条件下语音识别的抗噪方法.在特征提取阶段,用功率谱短时均值相减的谱减方法补偿加性噪声的影响,用在Mel频标倒谱域RASTA(relative specllral)滤波补偿卷积性噪声对语音识别系统的影响.在汉语非特定人孤立数字识别实验中,使用该方法的误识率比未使用该方法要低,并且需要很小的噪声先验知识和假设,运算简单.实验证明,提出的减谱结合RASTA的方法是一种比较有效地削减噪声的方法。  相似文献   

13.
混响声场中语音识别方法研究   总被引:1,自引:4,他引:1  
免提式话筒语音识别系统是语音识别走向实用的目标之一.实现这一系统,首先要解决房间效应引起的混响问题.通过讨论室内混响声场中语音的特点,提出用鲁棒性特征参数——滤波规整的Mel频率倒谱参数(FNMFCC,即MFCC参数在对数功率谱域进行低通滤波,倒谱域进行均值减,并用标准差加权进行非线性规整,采用这3种措施来消除混响引起的语音参数的变化.识别方法用矢量量化法,用4组无混响数码语音进行训练,对特定人无混响和4种混响声场中共150组数码音的平均识别率达到98.7%.提出的这一新方法在不降低无混响音识别率的情况下,提高了混响声场的语音识别率.该方法不仅识别率高,而且运算量小、所需内存空间小。易于做成小型实用的快速识别系统.  相似文献   

14.
Mel 频率下基于 LPC 的语音信号深度特征提取算法   总被引:1,自引:0,他引:1  
针对传统语音信号二次特征提取方法在保证识别率的前提下,实时性较差的问题,提出一种Mel频率下基于线性预测系数(linear predictive coefficient,LPC)的改进的语音信号深度特征提取算法.该方法根据人耳的听觉特性把LPC在Mel频率下进行非线性变换,再进行微分、高阶微分和按比例重组等步骤,得到一种既考虑声道激励又兼顾人耳听觉的新特征参数,从而大大减少传统语音信号深度特征提取的计算量,在不影响识别效率的情况下,极大提高系统的实时性.最后,将该算法在智能轮椅平台进行有效性验证,大量实验表明,语音控制系统实时性差的问题在使用该算法后能够得到明显改善,该算法既保证了特征提取识别率,也有效地改善了系统的实时性.在一定程度上使语音控制智能轮椅更具实用性.  相似文献   

15.
汪兰兰  蔡昌新 《科学技术与工程》2022,22(26):11524-11532
针对目前常见的语音特征提取方法应用于真实环境中,所提取的语音特征包含有噪声干扰的问题,进而导致情感识别时出现的分类模糊化情况,为此提出一种新的语音特征提取方法,即线性预测基音频率特征提取方法。它主要是基于线性预测系数来构建模型,利用构建的模型消除声道响应信息以及抑制噪声干扰。由于此方法对于分类模糊化问题没有得到较好改善,利用模型相同的LPCMCC(LPC Mel cepstral coefficients,LPC美尔倒频谱系数)来对线性预测基音频率进行改进,并设计基于线性预测基音频率、其改进特征、LPCMCC与SVM(support vector machines,支持向量机)的语音情感识别对比实验。对比实验表明,此改进特征提取方法应用在情感识别领域的平均精度最高为84%,比线性预测基音频率和LPCMCC要高出22%、14%。为了测试此改进特征在真实环境中的分类效果,在此改进特征的基础上设计了一种基于MATLAB GUI技术的语音情感识别系统。实验结果表明这种新的改进特征能有效改善情感识别时出现的分类模糊化情况,基于此改进特征的语音情感系统能广泛地识别出噪声干扰下的说话人情感。  相似文献   

16.
基于小波分析的梅尔频率倒谱参数?   总被引:1,自引:0,他引:1  
采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC.  相似文献   

17.
This work demonstrates the use of the nonlinear time-frequency distribution (NL TFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processlng stage and using NL TFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test.  相似文献   

18.
在语音情感识别系统中,语音情感特征的提取尤为重要,本文在前期已有对EMD分解研究的基础上,将EMD分解与Teager能量算子相结合,用于语音情感识别。文中首先利用EMD分解得到一组IMF分量,再对各阶IMF分量提取Teager能量,然后通过对不同语种的不同情感语音的Teager能量在Mel频率的分析,提出了一种新的情感特征:基于EMD分解的Mel频率的Teager能量谱系数(ETMC),最后利用SVM分类方法对不同语种的不同情感进行识别,实验结果表明,该方法有很好的识别结果。  相似文献   

19.
一种基于听觉模型的抗噪语音识别特征提取方法   总被引:5,自引:2,他引:5  
提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过计算语音的上升过零率作为频率信息并通过非线性幅度加权相结合来获取语音特征。仿真实现了中小词汇量、孤立词的语音识别,得到了较好的实验结果,证明了此方法具有较强的抗噪声性能。  相似文献   

20.
藏语孤立词语音识别系统研究   总被引:3,自引:0,他引:3  
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号