首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础,提出了一种基于统计阈值的倒谱均值方差归一化算法,该算法能进一步减小训练环境和测试环境的不匹配程度,从而提升了语音识别系统对环境噪声的鲁棒性。首先,对输入的语音提取MFCC声学参数,然后对提取的声学参数作均值方差归一化处理,最后采用统计阈值的方法抑制归一化后存在变异的特征。该算法能增加带噪语音特征和纯净语音特征的相似性;与MFCC为基线的系统相比,在低信噪比情况下,该算法的错误率最高下降约40%,同时该方法也优于其他的鲁棒性特征倒谱均值减和倒谱均值归一。  相似文献   

2.
基于HMM的孤立字识别   总被引:1,自引:0,他引:1  
本文以HMM(隐马尔可夫模型)为基础研究孤立字的汉语语音识别。孤立字的汉语语音样本首先经过人工切分去除寂静段,然后进行分帧处理;对每一帧语音进行频域预加重和时域汉明窗加权处理后,提取该帧的39维的MFCC混合参数(Mel频率倒谱参数);把该字所有帧的MFCC混合参数作为该字HMM模型的观察序列对其进行训练。通过在小人群范围内对0-9这十个孤立数码语音的大量实验,得到了很好的识别效果。  相似文献   

3.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

4.
基于语音编码系统的语音识别,由于受编码的影响其识别效果在编码速率下降时显著降低。传统的识别方法从重构语音波形中提取特征参数,并针对该特征参数进行训练和识别。比较了基于编码语音的识别准确率和基于编码参数的识别准确率,并研究了编码参数对识别准确率的影响。在此基础上,通过选择受编码影响较小的编码参数,直接将LPC参数和残差信号参数组合起来构成特征参数进行语音识别。实验结果表明,采用这种方法的AMR语音识别系统,其识别效果接近于基于原始语音的识别效果。  相似文献   

5.
Mel频率倒谱系数(MFCC)是语音特征提取的一种常用方法。因其能够充分模拟人耳的听觉系统,具有较高的识别精度,所以在语音识别中得到了广泛的应用。本文针对MFCC在语音识别中对中高频区域识别精度不高的固有缺陷,通过将MFCC、Mid MFCC、IMFCC与主成分分析(PCA)相结合,提出了一种在全频域实现精确且快速的识别方法,并进行了仿真实验验证。  相似文献   

6.
汽车噪声中自动语音的识别技术   总被引:6,自引:0,他引:6  
汽车中的话音拨号系统是自动语音识别技术的应用热点.自动语音识别系统是一个基于训练的系统.在汽车噪声中,由于实际应用环境与形成系统参数的训练环境的失配,传统语音识别系统的性能会大幅度地下降,从而无法实用.为了提高语音识别系统在特定环境下的识别率及实用性,首先根据汽车环境中语音的失真模型分析了系统性能下降的原因,然后针对加性汽车噪声与信道失真对系统的影响,讨论了在汽车噪声中改善语音识别系统性能的方法.提出了在识别系统中用基于子带的语音增强算法和倒谱均值相减算法相结合的方法.对大量的多人连续数字串语音的识别实验表明,这一方法大大提高了系统在汽车噪声环境中的识别率,它还可以简便、实时的实现,具有一定的实用性.  相似文献   

7.
用传统的梅尔倒谱系数作为特征进行车辆识别时,识别效果易受噪声干扰.为增强特征鲁棒性,提出一种加权的基频自适应梅尔倒谱系数特征提取算法.首先用能熵比法对车辆声音信号进行端点检测;然后提取车辆信号的基频,自适应构建三角滤波器组,提高滤波器对基频的感知敏感度;最后对基频自适应梅尔倒谱系数进行F比加权.实验结果表明,与传统梅尔倒谱系数相比,在识别车辆时,加权的基频自适应梅尔倒谱系数识别准确率提高7.10%,虚警率降低3.93%,漏警率降低7.10%.  相似文献   

8.
提出了一种基于SDCN算法的鲁棒性语音命令识别。依赖于信噪比的倒谱正常化(SDCN)算法直接在倒谱域根据输入语音帧的信噪比(SNR)来增加一补偿矢量,从而恢复未受污染的净语音信号,补偿矢量直接从训练环境和测试环境中记录的语音倒谱中逐帧比较得到,该算法对退化的环境具有很强的鲁棒性,实验结果证明,该算法简单,有效。  相似文献   

9.
姜琦  冯庆胜 《科学技术与工程》2022,22(16):6680-6686
为了准确地识别铁路转辙机所处的工作状态,保证列车能够安全行驶并转向,提出了一种基于声音信号的转辙机状态识别方法。首先将声音信号预处理后提取其梅尔倒谱系数(Mel frequency cepstrum coefficient, MFCC);为更加全面表征转辙机声信号的特点,对MFCC进行改进得到多尺度MFCC特征;引入卷积神经网络(convolutional neural network, CNN)构建转辙机声信号识别模型,并采用五折交叉验证法获得两种特征的识别准确率。将S700K型转辙机在4种状态下运行时采集的真实声音信号进行训练和测试。结果表明:多尺度MFCC特征可使转辙机声音状态识别准确率至少提高7.5%。并且在低信噪比(signal-to-noise ratio, SNR)下,多尺度MFCC特征也有更好的表现,其准确率相较传统MFCC可提升35%。  相似文献   

10.
基于径向基神经网络的数字"0"~"9"语音识别   总被引:1,自引:0,他引:1  
介绍了语音信号分析方法中的线性预测编码技术和滤波器组分析方法,并推导了MFCC系数.分析并讨论了语音识别研究中径向基神经网络的设计原则,以及特征参数等对语音识别结果的影响.实验结果表明:基于径向基神经网络的语音识别方法有着较好的识别性能和应用效果,针对非特定人的孤立词识别,识别率可以达到90%以上.  相似文献   

11.
Improved MFCC-Based Feature for Robust Speaker Identification   总被引:2,自引:0,他引:2  
The Mel-frequency cepstral coefficient (MFCC) is the most widely used feature in speech and speaker recognition. However, MFCC is very sensitive to noise interference, which tends to drastically degrade the performance of recognition systems because of the mismatches between training and testing. In this paper, the logarithmic transformation in the standard MFCC analysis is replaced by a combined function to improve the noisy sensitivity. The proposed feature extraction process is also combined with speech enhancement methods, such as spectral subtraction and median-filter to further suppress the noise. Experiments show that the proposed robust MFCC-based feature significantly reduces the recognition error rate over a wide signal-to-noise ratio range.  相似文献   

12.
刘亚雷  顾晓辉  甘宁 《科学技术与工程》2020,20(28):11620-11625
针对声源识别中观测模型线性化误差,信号特征参数提取依赖于经验分析阈值判断而造成信息丢失的问题,本文从信号观测模型、预处理、特征提取与分类识别、半实物仿真试验等方面,提出了一种新的四元阵列融合声源识别方法。首先在系统坐标系下建立了四元阵列有色噪声环境下的观测模型;其次基于EMD理论,给出了四元阵列EMD融合算法,有效抑制了高频信号的干扰;再次基于MFCC-DTW方法,设计了阵列信号特征提取与分类识别算法;最后通过半实物仿真试验,并与相关研究基础对比,分别验证了本文提出的EMD融合算法及阵列信号特征提取与分类识别算法的有效性。  相似文献   

13.
Mel 频率下基于 LPC 的语音信号深度特征提取算法   总被引:1,自引:0,他引:1  
针对传统语音信号二次特征提取方法在保证识别率的前提下,实时性较差的问题,提出一种Mel频率下基于线性预测系数(linear predictive coefficient,LPC)的改进的语音信号深度特征提取算法.该方法根据人耳的听觉特性把LPC在Mel频率下进行非线性变换,再进行微分、高阶微分和按比例重组等步骤,得到一种既考虑声道激励又兼顾人耳听觉的新特征参数,从而大大减少传统语音信号深度特征提取的计算量,在不影响识别效率的情况下,极大提高系统的实时性.最后,将该算法在智能轮椅平台进行有效性验证,大量实验表明,语音控制系统实时性差的问题在使用该算法后能够得到明显改善,该算法既保证了特征提取识别率,也有效地改善了系统的实时性.在一定程度上使语音控制智能轮椅更具实用性.  相似文献   

14.
为了帮助发音困难者障碍者和外语学习者矫正普通话发音错误,提出基于Mel频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)特征比较和模拟退火-遗传算法(simulated annealing genetic algorithm,SAGA)的普通话音素评分模型。该模型采用动态时间弯折(dynamic timewarping,DTW)算法对普通话音素进行相似度比对,并基于SAGA评分机制对发音进行自动评分。本文对比了不同优化算法(SAGA和局部优化算法)、不同DTW算法对语音评分的影响。结果发现:SAGA评分模型下的音素评分正确率大于94%,远远优于局部优化算法。此外,在SAGA评分模型下,搜索路径为平行四边形的改进DTW算法具有最优的评分结果。因此,基于MFCC和SAGA的评分模型适用于普通话音素评分。  相似文献   

15.
IntroductionCurrentautomaticspeechrecognitionsystemsarebasedoncontext-dependentorcontext-independentphonicsorsyllablemodelsdescribedintermsofse-quencesofhiddenMarkovmodel(HMM)states,whereeachstateisassumedtobecharacterizedbyastationaryprobabilitydensityfunction.Thetimecorre-lationandconsequently,thesignaldynamicsinsideeachHMMstate,arealsousuallydisregardedalthoughtheuseofdynamicfeatures,suchasdeltaanddelta-deltaparameters,cancapturesomeofthecorrelations.Consequently,onlymedium-termdependenc…  相似文献   

16.
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.  相似文献   

17.
基于核主元分析法和支持向量机的人耳识别   总被引:9,自引:0,他引:9  
对人耳识别中若干关键问题进行了研究. 介绍了两种人耳图像归一化处理的方法,即基于外耳轮廓长轴的线标记法和基于外耳轮廓起始点的点标记法,并对这两种方法进行了对比. 在分析现有人耳识别方法不足的基础上,提出利用核主元分析法提取人耳图像的代数特征,再利用支持向量机分类模型进行人耳识别. 在带有角度、光照变化的北京科技大学人耳图像库上得到的识别率为98.7%,表明了该识别方法的有效性以及利用人耳图像进行身份识别的可行性.  相似文献   

18.
Realtime speech communications require high efficient compression algorithms to encode speech signals. As the compressed speech parameters are highly sensitive to transmission errors, robust source and channel decoding and demodulation schemes are both important and of practical use. In this paper, an iterative joint source-channel decoding and demodulation algorithm is proposed for mixed excited linear prediction (MELP) vocoder by both exploiting the residual redundancy and passing soft information throughout the receiver while introducing systematic global iteration process to further enhance the performance. Being fully compatible with existing transmitter structure, the proposed algorithm does not introduce additional bandwidth expansion and transmission delay. Simulations show substantial error correcting performance and synthesized speech quality improvement over conventional separate designed systems in delay and bandwidth constraint channels by using the joint source-channel decoding and demodulation (JSCCM) algorithm.  相似文献   

19.
为了对设备预知性维护研究提供支持,采用统计模式识别(SPR)方法对设备进行性能评估,获取设备健康指标;再运用自回归滑动平均模型(ARMA)对设备剩余寿命进行预测,建立了基于设备健康状况的设备剩余寿命预测模型.对生产过程中刀具加工设备寿命预测进行分析和验证结果表明,该设备评估和预测方法是有效且实用的.  相似文献   

20.
提出了一种新的加权主分量分析方法,该方法和传统主分量分析的区别在于考虑了训练样本分布情况,给出了一种新的均方差矩阵估计方法,再进行特征抽取和识别.在ORL人脸数据库上的试验结果表明,所提出的方法在识别性能上优于主分量分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号