首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 152 毫秒
1.
调制域谱减法用于鲁棒性语音识别   总被引:2,自引:2,他引:0  
针对语音识别在实际环境中缺乏稳健性的问题,提出了将调制域谱减法应用于语音识别前端的方法。先将语音信号变换到调制域,在调制域用谱减法将信号增强,在减少语音畸变的基础上提高信噪比,然后再进行识别。仿真实验表明,调制域谱减法能在较大的信噪比区间内提高系统识别率,证明此方法能显著提高语音识别系统的抗噪声能力。  相似文献   

2.
针对NAO机器人自身语音识别准确率低问题,提出一种调用云平台服务进行语音识别方法。通过相位补偿的调制域谱减法对声音进行降噪处理,提高语音信噪比,基于双门限判决方法对声音信号进行端点检测,删除噪声帧,保留有话帧,最终生成WAV文件并传输识别,提高了NAO机器人的实用性、功能多样性。实验结果表明,本文算法在低信噪比情况下取得了良好识别效果,具有较强鲁棒性。  相似文献   

3.
传统的端点检测在信噪比较高的环境下可以有效地对语音进行端点检测,但是在低信噪比环境下端点检测的正确率急剧下降。针对在低信噪比环境下语音端点检测正确率不高的问题,提出一种将调制域谱减法和对数能量子带谱熵相结合的的端点检测算法;该算法首先利用调制域谱减法去除带噪语音的噪声以提高语音信号的信噪比,然后结合对数能量和子带谱熵算法对消噪后的语音信号进行端点检测。实验仿真结果表明,该算法在低信噪比环境下能有效提高语音端点检测的正确率且具有一定的稳健性。  相似文献   

4.
传统的端点检测在信噪比较高的环境下可以有效的对语音进行端点检测,但是在低信噪比环境下端点检测的正确率急剧下降。针对在低信噪比环境下语音端点检测正确率不高的问题,提出一种将调制域谱减法和对数能量子带谱熵相结合的的端点检测算法。该算法首先利用调制域谱减法去除带噪语音的噪声以提高语音信号的信噪比,然后结合对数能量和子带谱熵算法对消噪后的语音信号进行端点检测。实验仿真结果表明,该算法在低信噪比环境下能有效提高语音端点检测的正确率且具有一定的稳健性。  相似文献   

5.
为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势.  相似文献   

6.
说话人识别技术是通过判断待识别人语音与预先提取的说话人语音特征是否匹配来鉴别说话人身份的一种生物认证技术,环境噪声是说话人识别技术走向实用化的一个主要障碍.针对噪声环境中说话人识别性能较差的不足,结合小波变换的优点,提出了将小波变换技术与传统的特征参数提取方式相结合的方法.该方法首先对语音信号进行小波分解,在此基础上再对小波系数进行阈值处理,仅保留阈值以上的数据,而后提取相关性不大的传统特征参数进行组合,分别作为说话人识别系统的输入矢量.仿真结果表明:在噪声环境中,说话人识别系统能较好识别出说话人,经过小波变换后再提取特征参数的方法可以得到更高的识别率,大大提高说话人识别系统的识别性能.  相似文献   

7.
王蕾  孟慧杰 《科技信息》2010,(33):48-49
说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文重点研究在噪声环境下,话者识别中语音信号的特征提取。应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括LPCC、MEL倒谱系数、线性预测倒谱系数等,对这些参数进行分析和比较,以达到话者识别的目的。  相似文献   

8.
提出了一种基于PCANN/PDP混合结构的实际环境下说话人识别的方法。它采用相继几帧组成的特征参数矢量作为说话人识别系统的输入,能有效地在说话人识别系统中引入帧间相关信息。针对噪声往往具有帧间相关性小,能量分布频率范围广且数值较小,在语音信号主分量特征中对应于贡献率较小的分量等特点,话人识别系统的前端增加语音参数压缩的主分量分析神经网络(PCANN)。同时提出了概率DP匹配说话人识别方法。通过对噪声环境下与文本无关的说话人识别实验,这种方法的有效性得到了验证。  相似文献   

9.
提出一种混合模型,即将隐马尔可夫模型(HMM)和小波神经网络(WNN)相结合应用于说话人识别的模型.该方法利用HMM的时序建模能力以及小波神经网络较强的模式分类能力,进行与文本无关的说话人的识别.实验表明,采用这种混合模型可以提高系统的识别率,特别在噪声环境中具有一定的噪声鲁棒性,提高了识别性能.  相似文献   

10.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

11.
为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数(MFCC)与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。  相似文献   

12.
该文指出了常用的倒谱均值归一方法在去除信道因素的同时,也去掉了一些说话人的语音特征,因此,在信道失配的环境下鲁棒性较差。提出利用信道间差异,补偿信道失配的信道空间映射方法,并构建了一个与文本无关对随机信道鲁棒的说话人识别系统。实验结果表明:对来自随机信道的说话人语音,第1名和前30名的正确识别率,与实验室基线系统的性能比较,分别提高了5.4%和18.6%。寻找并补偿信道间的差异,是一种提高说话人识别鲁棒性的有效方法。  相似文献   

13.
一种量子神经网络说话人识别方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对说话人语音特征空间边界存在模糊性的特点,构建了一种量子神经网络识别分类器,用于说话人识别,以改善存在交叉数据的语音特征参数的分类效果。提出了一种基于人工免疫算法的量子间隔训练方法,以改善传统量子神经网络训练算法的不足。以TIMIT语音库为测试语音,与传统BP网络和基于常规梯度下降量子间隔训练算法的量子神经网络做对比实验。实验证明,算法能有效提高说话人识别系统的识别率,同时与高斯混合模型相比,具有更好的抗噪声性能。  相似文献   

14.
提出一种采用超音段韵律特征和GMM-UBM模型结构的文本无关的说话人识别方法,用多尺度小波分析方法从短时倒谱参数MFCC和基频F0随时间变化的韵律中分别提取可用于文本无关说话人识别的超音段韵律特征参数PMFCC和PF0,并组成联合参数PMFCCF0.在NIST068side-1side复杂背景电话手机语音数据库上的说话人确认实验则表明,采用一阶小波分析方法提取的超音段韵律参数PMFCC的识别性能与短时MFCC相当,采用超音段韵律特征PMFCCF0的系统确认性能比采用短时MFCC系统有较大的提高.在微软数据库进行不同信噪比测试语音的说话人辨认实验表明,PMFCCF0有比短时MFCC更好的噪声鲁棒性.  相似文献   

15.
说话人识别中语音特征参数研究   总被引:1,自引:0,他引:1  
在说话人识别系统中,特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要的语音特征参数,线性预测倒谱系数和美尔倒谱系数,在此基础上提出改进的相位自相关系数,通过实验对几种参数进行了对比,结果表明改进的相位自相关系数能够使系统的误识率明显下降。  相似文献   

16.
随着待识别人数的增加,文本无关的说话人识别准确率下降明显. 针对这一问题提出了一种高准确率大规模说话人识别方法,该方法采用多个连续音频帧的声学帧特征构成声学特征图,进而获得高维度的2D-Haar声学特征,为训练出性能更优的分类器提供可能;再利用AdaBoost.MH算法筛选出具有较好区分度的2D-Haar声学特征组合进行分类器训练. 实验结果表明,600人规模下的正确识别率为89.5%,100~600人规模下的平均准确率为91.3%. 该方法适用于大规模说话人的识别,引入的2D-Haar声学特征有效,识别准确率高. 此外,该方法还具有较低的算法复杂度和较高的时间效率.   相似文献   

17.
Improved MFCC-Based Feature for Robust Speaker Identification   总被引:2,自引:0,他引:2  
The Mel-frequency cepstral coefficient (MFCC) is the most widely used feature in speech and speaker recognition. However, MFCC is very sensitive to noise interference, which tends to drastically degrade the performance of recognition systems because of the mismatches between training and testing. In this paper, the logarithmic transformation in the standard MFCC analysis is replaced by a combined function to improve the noisy sensitivity. The proposed feature extraction process is also combined with speech enhancement methods, such as spectral subtraction and median-filter to further suppress the noise. Experiments show that the proposed robust MFCC-based feature significantly reduces the recognition error rate over a wide signal-to-noise ratio range.  相似文献   

18.
王彪 《科学技术与工程》2012,12(10):2462-2464
为了提高语音信号的识别率,提出了一种基于经验模态分解(EMD)法的语音信号特征参数提取方法。该方法先对语音信号进行EMD分解,获得其内模函数;再进行FFT和DCT变换,得到特征分量,以此构成语音信号新特征参数。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

19.
针对说话人识别的噪声鲁棒性问题,在对数谱最小均方差误差估计算法基础上,采用改进的最小值控制递归平均算法对语音帧信噪比进行估计,通过对前一帧的短时功率谱进行2次平滑和前向多帧最小值搜索,结合语音存在概率估计出当前帧的信噪比,并根据信噪比自适应调整增益因子的大小,对噪声进行消除。构建了一种改进的LSA语音增强方法,使用该方法可以使增强后的语音保持较高的自然度。实验结果表明,与MMSE-LSA算法比较,改进的LSA算法具有更好的语音增强效果,在5dB各类噪声环境下,其平均信噪比较MMSE-LSA算法提高1.36dB,主观语音质量评估平均提高8%。将该方法用于说话人识别系统,其检测代价较采用MMSE-LSA算法的系统平均降低3%。  相似文献   

20.
针对大数据量音频的高速处理,提出一种快速的声学特征超向量生成方法,有效提高音频识别系统的识别速度和精度.所提方法首先将多个连续音频帧的常用声学特征构成声学特征图,进而使用低复杂度的运算方法在其中快速提取维数达数十万的Haar-like声学特征;然后使用AdaBoost.MH算法,筛选出具有较高代表性的Haar-like声学特征模式组合,用以构成声学特征超向量;进而提出Random AdaBoost特征筛选方法,进一步提高特征筛选速度.实验结果表明,在音频事件识别、说话人识别、说话人性别识别3种场合下,使用Haar-like声学特征可以使SVM、C5.0、AdaBoost等识别算法获得比MFCC、PLP、LPCC等常用声学特征更高的识别准确率,同时可以获得7~20倍的训练速度提升和5~10倍的识别速度提升.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号