期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曾霞霞徐戈吴征远《集美大学学报(自然科学版)》2016,(4):317-320

为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数（MFCC）与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。相似文献

2.

结合高斯混合模型和VOT特征的音素发音错误检测

刘明辉黄中伟《科学技术与工程》2013,13(7):1789-1793

结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。相似文献

3.

基于码本映射和GMM的语音带宽扩展

王迎雪于莹莹赵胜辉匡镜明《北京理工大学学报》2017,37(9):970-974

采用传统的高斯混合模型（Gaussian mixture model,GMM）进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射（codebook mapping,CM）与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象. 相似文献

4.

管制指令特征参数提取研究 总被引：2，自引：1，他引：1

何昕蒋豪韩丹《科学技术与工程》2015,15(20)

在管制指令语音识别系统的研究中,语音的特征参数提取方法是影响系统识别率的关键因素之一。在Matlab平台上基于MATLAB GUI技术,设计完成HMM语音训练识别模型的用户操作界面,实现特征参数提取方法的选择、语音信号的训练、识别操作及结果输出和波形显示。通过实例对比分析,特定人和非特定人情况下,LPCC和MFCC两种特征参数提取方法在训练、识别时间和识别率上的差异。结果表明,特定人时LPCC参数的识别优势明显;非特定人时,MFCC参数的识别效果和效率更好。相似文献

5.

汉语语音声学特征复合的研究

《云南大学学报(自然科学版)》2010,(Z1)

抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%～7%的改善. 相似文献

6.

基于多特征融合的GMM汉语普通话口音识别

《华中科技大学学报(自然科学版)》2015,(Z1)

提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%. 相似文献

7.

基于改进MFCC的异常声音识别算法

贺玲玲周元《重庆工商大学学报(自然科学版)》2012,29(2):52-57

在声音识别系统中,特征参数的获取对声音识别和训练有着重要的影响;MFCC算法作为典型的声音特征参数提取方法,性能稳定,识别率高;针对MFCC算法存在较大计算量的情况,提出一种改进的特征参数提取算法MFCC_E;相比于标准的MFCC算法,MFCC_E算法减少了约50%的运算量,并且易于硬件实现;实验结果表明,MFCC_E算法与MFCC算法的识别率大致相同,而计算复杂度却小很多。相似文献

8.

基于MFCC和GMM的个性音乐推荐模型 总被引：1，自引：1，他引：0

牛滨孔令志罗森林潘丽敏郭亮《北京理工大学学报》2009,29(4):351-355

提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%. 相似文献

9.

基于HTK的普米语孤立词的语音识别

《云南民族大学学报(自然科学版)》2015,(5):426-430

基于HTK的普米语孤立词的识别,通过对特定发音人和非特定发音人的语音进行特征分析、预处理、提取MFCC特征参数,从而建立每个普米词的HMM模型,最后采用Viterbi算法进行模型的训练和匹配.实验表明:对特定发音人和非特定发音人,随着普米词个数的增加,识别率虽有所下降,但是变化很小,识别率均超过了95.00%,识别效果很好.语料的信噪比和发音人的发音稳定性是导致识别率下降的重要原因. 相似文献

10.

基于超音段韵律特征和GMM-UBM的文本无关的说话人识别

许东星戴蓓缮刘青松许敏强《中国科学技术大学学报》2010,40(2)

提出一种采用超音段韵律特征和GMM-UBM模型结构的文本无关的说话人识别方法,用多尺度小波分析方法从短时倒谱参数MFCC和基频F0随时间变化的韵律中分别提取可用于文本无关说话人识别的超音段韵律特征参数PMFCC和PF0,并组成联合参数PMFCCF0.在NIST068side-1side复杂背景电话手机语音数据库上的说话人确认实验则表明,采用一阶小波分析方法提取的超音段韵律参数PMFCC的识别性能与短时MFCC相当,采用超音段韵律特征PMFCCF0的系统确认性能比采用短时MFCC系统有较大的提高.在微软数据库进行不同信噪比测试语音的说话人辨认实验表明,PMFCCF0有比短时MFCC更好的噪声鲁棒性. 相似文献

11.

多特征全卷积网络的地空通话语音增强方法

高登峰杨波杨红雨刘洪《四川大学学报(自然科学版)》2020,57(2):289-296

为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能. 相似文献

12.

基于正交混合Gauss模型的脱机手写数字识别 总被引：6，自引：0，他引：6

张睿丁晓青刘海龙《清华大学学报(自然科学版)》2002,42(1):19-22

在基于统计方法的脱机手写数字识别中 ,为更加有效地描述特征的类条件概率分布 ,设计出性能优良的 Bayes分类器 ,采用了混合 Gauss模型。为减少模型的参数 ,通常假设各 Gauss分量的协方差矩阵为对角阵。由于各维特征之间统计相关 ,因此需要大量的 Gauss分量才能较好地描述特征的类条件概率分布 ,使得混合模型的阶数较高。为降低模型的阶数 ,采用了正交混合 Gauss模型 ,即先对各类别的特征分别进行 KL 变换 ,再将变换后的特征用混合 Gauss模型来表示。其中混合 Gauss模型的参数可以通过 EM算法进行估计。最后 ,在 NIST (National Institute of Standards andTechnology)手写数字样本集上对该方法的识别性能进行了验证相似文献

13.

Improved MFCC-Based Feature for Robust Speaker Identification 总被引：2，自引：0，他引：2

吴尊敬曹志刚《清华大学学报》2005,10(2):158-161

The Mel-frequency cepstral coefficient (MFCC) is the most widely used feature in speech and speaker recognition. However, MFCC is very sensitive to noise interference, which tends to drastically degrade the performance of recognition systems because of the mismatches between training and testing. In this paper, the logarithmic transformation in the standard MFCC analysis is replaced by a combined function to improve the noisy sensitivity. The proposed feature extraction process is also combined with speech enhancement methods, such as spectral subtraction and median-filter to further suppress the noise. Experiments show that the proposed robust MFCC-based feature significantly reduces the recognition error rate over a wide signal-to-noise ratio range. 相似文献

14.

2D-Haar声学特征超向量快速生成方法

谢尔曼罗森林潘丽敏《北京理工大学学报》2016,36(3):295-301

针对大数据量音频的高速处理,提出一种快速的声学特征超向量生成方法,有效提高音频识别系统的识别速度和精度.所提方法首先将多个连续音频帧的常用声学特征构成声学特征图,进而使用低复杂度的运算方法在其中快速提取维数达数十万的Haar-like声学特征;然后使用AdaBoost.MH算法,筛选出具有较高代表性的Haar-like声学特征模式组合,用以构成声学特征超向量;进而提出Random AdaBoost特征筛选方法,进一步提高特征筛选速度.实验结果表明,在音频事件识别、说话人识别、说话人性别识别3种场合下,使用Haar-like声学特征可以使SVM、C5.0、AdaBoost等识别算法获得比MFCC、PLP、LPCC等常用声学特征更高的识别准确率,同时可以获得7~20倍的训练速度提升和5~10倍的识别速度提升. 相似文献

15.

说话人识别中改进的MFCC参数提取方法 总被引：1，自引：0，他引：1

何朝霞《科学技术与工程》2011,18(18):4215-4218,4227

在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。相似文献

16.

基于改进型BP神经网络的音频多分类 总被引：1，自引：0，他引：1

刘军伟余小清万旺根张静杨薇《上海大学学报(自然科学版)》2012,18(2):127-131

音频信号作为多媒体信息的重要载体之一, 为满足人们对信息知识的获取提供了有效途径.为了提高音频分类的精度,提出一种将音频信号的梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)参数作为特征向量,采用基于改进型传输函数的误差反向传播神经(back propagation, BP)网络模型对6种音频进行分类.实验证明,该方法在音频分类精度方面性能良好,改进的传输函数具有收敛速度快的优点.相对于传统BP算法,该方法不仅缩短了训练时间,而且进一步提高了分类精度,其分类准确率达到90%以上. 相似文献

17.

基于声信号的履带机器人地面分类试验研究

赵凯董明明刘锋王玉帅孙晋伟顾亮《北京理工大学学报》2018,38(9):912-916

为了拓展地面识别方式及提升识别率,提出利用履带机器人行驶噪声进行地面类型识别.使用声压传感器采集履带机器人在行驶过程中与地面相互作用辐射的声音信号,对声音信号提取修正的梅尔频率倒谱系数（MFCC）及其一阶差分（△MFCC）使用优化后的支持向量机（SVM）进行分类,并测试了该方法在多种背景噪声环境下的效果.结果表明,行驶噪声包含能够表征地面特点的信息.相比于幅域、频域和时频域特征,修正的MFCC+△MFCC特征具有明显优势.在校园环境中分类准确率达到了89.5%,当信噪比高于20 dB时,在多种背景噪声环境中分类准确率均达到80%左右. 相似文献

18.

基于小波变换的说话人语音特征参数提取 总被引：1，自引：3，他引：1

刘雅琴周炜《河南科技大学学报(自然科学版)》2005,26(4):44-46

在说话人识别系统中，提取反映说话人个性的语音特征参数是系统的关键问题之一，本文在研究小波变换理论的基础上，借鉴MFCC参数的提取方法，用小波变换代替傅立叶变换，提取了新的特征参数DWTMFC，并对常用的coif3、db6、db4、sym4、bior2．4这几种小波函数进行了比较，实验结果表明：coif3为提取语音特征参数的最优小波函数，DWTMFC参数的性能优于MFCC参数。相似文献

19.

基于BPNN/HMM神经网络的声学模型研究 总被引：1，自引：0，他引：1

李凡吴军黄刚《华中科技大学学报(自然科学版)》2004,32(9):9-11

研制了一种基于BP神经网络和隐马尔可夫模型(HMM)的混合声学模型，BP神经网络的主要功能是把失真语音特征矢量转换成纯净语音特征矢量，而删则对转换后的纯净语音特征矢量进行分类，从模型级补偿的方面来提高语音识别系统的鲁棒性．讨论了一种基于线性预测的MKCC语音特征提取方法，该方法把提取出的失真语音特征矢量作为神经网络的输入，从而实现了特征参数级去噪处理的目的．相似文献