期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曹辉徐晨赵晓吴胜举《西北大学学报(自然科学版)》2013,(2):203-208

目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响。方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度。结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数。结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间。相似文献

2.

Mel频率倒谱系数的提取与改进

董建彬马艳玲《科技信息》2008,(15)

Mel频率倒谱系数在语音识别中是常用的特征参数之一。本文对Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)的提取过程进行了详细分析,找出其两个主要的缺点。并使用线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和小波变换分别对其两个不同的缺点进行了改进。相似文献

3.

基于MFCC特征组合参数的说话人识别研究

曾霞霞徐戈吴征远《集美大学学报(自然科学版)》2016,(4):317-320

为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数（MFCC）与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。相似文献

4.

噪声环境下话者识别系统的特征提取

王蕾孟慧杰《科技信息》2010,(33):48-49

说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文重点研究在噪声环境下,话者识别中语音信号的特征提取。应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括LPCC、MEL倒谱系数、线性预测倒谱系数等,对这些参数进行分析和比较,以达到话者识别的目的。相似文献

5.

一种新的汉语方言辨识特征

下载免费PDF全文

顾明亮《广西科学》2007,14(4):423-425

将声学特征与韵律特征相结合,提出一种新的混合区间特征,并将该特征和常见的美尔倒谱系数(MFCC)特征与线性预测倒谱系数(LPCC)特征进行对比,通过符号化语言辨识方法对北方方言、吴方言、粤方言和闽方言进行辨识,以验证混合区间特征的有效性。结果表明,混合区间特征比MFCC特征和LPCC特征具有更好的方言辨识效果,对4种汉语方言15s语音片段的方言辨识率可以达到92%。4种方言中,混合区间特征对闽方言和粤方言的识别率最高,分别达到了96%和95%。相似文献

6.

改进的智能机器人语音识别方法

张毅李艳花刘全杰杨红梅曾莉《重庆邮电大学学报(自然科学版)》2009,21(6):799-805

作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好. 相似文献

7.

基于特征融合的说话人聚类算法

郑艳姜源祥《东北大学学报(自然科学版)》2021,42(7):952-959

针对单一声学特征和k-means算法在说话人聚类技术中的局限性,为了更好地表达说话人的个性信息并提高说话人聚类的准确率,将特征融合和AE-SOM神经网络应用于说话人聚类中,提出一种改进的说话人聚类算法.该算法通过对语音信号特征分析,将MFCC特征参数和LPCC特征参数相结合,从而完善说话人的个性信息.并在k-means... 相似文献

8.

Mel频率倒谱系数提取及其在声纹识别中的作用 总被引：8，自引：0，他引：8

张万里刘桥《贵州大学学报(自然科学版)》2005,22(2):207-210

从说话人的语音信号中提取出说话人的个性特征是声纹识别的关键。本文介绍了一种基于HMM的声纹识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征参数,取得了很好结果。相似文献

9.

说话人识别技术——语音特征参数提取及组合

张喜宁《科技资讯》2009,(34):231-232

本论文重点对语音特征参数的组合进行了研究,通过参数的特征组合从不同的角度来反映说话人的个性特征,能够大大提高说话人识别系统的识别率。对其中的特征参数（MFCC及LPCC）的特性及提取过程进行了详细的解释和仿真。相似文献

10.

改进的智能机器人语音识别方法(英文)

张毅李艳花刘全杰杨红梅曾莉《重庆邮电学院学报(自然科学版)》2009,(6)

作为一种人机信息交互技术,语音识别技术得到了广泛的应用。介绍了基于凌阳十六位单片机SPCE061A的语音识别系统,并且采用了以传统的线性预测倒谱系数(LPCC)与分形维数相结合的混合参数作为特征参数的语音识别方法。LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征。实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好。相似文献

11.

语谱特征的身份认证向量识别方法

冯辉宗王芸芳《重庆大学学报(自然科学版)》2017,40(5):88-94

针对采用梅尔频率倒谱系数(mel-frequency cepstrum coefficient,MFCC)作为身份认证向量(identity vector,i-vector)进行说话人识别存在语音信息不全的问题,提出一种基于语谱特征的身份认证向量识别说话人的方法。语音信号经过预加重、分帧加窗预处理之后,通过短时傅立叶变换转换成语谱图,语谱图被提交到高斯通用背景模型,在高维均值超向量空间中选择合适的低维线性子空间流型结构以构造符合正态分布的向量作为身份认证向量。这些获取的身份认证向量经过线性判别性分析实现降维并存储。最后采用对数似然比(log-likelihood ratio,LLR)方法对训练和测试阶段的i-vector进行评分,完成说话人识别。以TIMIT数据库为标准的数值实验结果表明,相比采用MFCC作为特征的识别方法,研究的等错误率(equal error rate,EER)更低。相似文献

12.

声码器半解码参数用于说话人身份确认 总被引：2，自引：0，他引：2

李晓先戴蓓蒨李辉《中国科学技术大学学报》2005,35(4):523-529

面向通信领域广泛使用的线性预测声码器，设计了一种不经过“解码—特征提取”过程，而直接由传输码流截取说话人特征的方法，并针对宽带自适应多码率声码器（ANN-WB）建立了与文本无关的话者确认系统．系统采用基于概率统计模型的GMM-UBM结构，以LPC倒谱作为主要的话者特征矢量，并加入基音衍生参数以提高确认性能．实验表明，该系统在运算速度提高一个数量级的情况下，达到了与基于重建语音的话者确认系统相接近的性能，且对码率失配具有良好的鲁棒性．相似文献

13.

基于改进GFCC特征参数的广播音频语种识别

邵玉斌陈亮龙华杜庆治《吉林大学学报(理学版)》2022,60(2):417-424

针对广播音频语种识别中与语种识别无关的特征对识别结果产生影响的问题, 提出一种基于伽马频率倒谱系数的改进特征参数的语种识别方法. 通过提取每帧信号的能量谱包络, 去除部分与说话人相关的特征, 采用Gammatone滤波器组滤波, 经离散余弦变换后再进行倒谱提升, 得到改进的伽马频率倒谱系数特征参数. 将广播音频信号提取特征参数输入隐Markov模型中进行训练测试, 得到的语种识别结果表明, 该方法有效提升了广播音频语种识别的准确率, 优于目前使用的伽马频率倒谱系数特征及其衍生方法. 相似文献

14.

基于神经网络的与文本相关说话人辨认系统

荣蓉《山东科学》2008,21(4):62-65

说话人识别是语音识别的一种特殊方式,对于各种领域的身份认证具有得天独厚的优势。以线性预测系数（Linear Predielion Coefficients,LPC）作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。实验结果表明,这种神经网络系统在说话人辨认中是有效的。相似文献

15.

概率神经网络在文本无关说话人识别中的应用

周长锋韩力群《北京工商大学学报(自然科学版)》2007,25(1):49-51

采用基于听觉特性的Mel频率倒谱系数作为说话人识别特征参数,对概率神经网络进行了描述,并使用该网络进行了文本无关说话人识别研究.实验表明,对20名说话人,用7秒语音训练,3秒语音识别时,该方法可达到96.7%的正确识别率. 相似文献

16.

自动讲话人辨认 总被引：12，自引：0，他引：12

彦君何东光《山东大学学报(理学版)》1994,(2)

针对非限定文本的自动讲话人辨认问题,对提取有效的识别特征进行了理论和实验分析,使用语音信号ＬＰＣ倒谱的瞬时谱和过渡谱的特征参量作为识别特征,运用矢量量化技术,设计并建立了１９人组成的ＡＳＩ系统,为每人分别建立了“动态”和“静态”倒谱系数的两种码本,在连续语音完全不限文本的情况下进行系统的识别实验,得到了较理想的结果。实验表明,上述两种特征矢量均为非常有效的识别特征且可互补结合运用于识别,使性能进一步提高。本文同时还对简单信道变化情况予以初步考察,得到一些有意义的结果。相似文献

17.

电话信道下应用DMFCC进行说话人识别 总被引：2，自引：0，他引：2

王刚郑方《清华大学学报(自然科学版)》2009,(10)

鉴别性Mel频率倒谱系数(DMFCC)是一种修正的Mel频率倒谱系数(MFCC),其更加强调语音频谱各个子带携带的鉴别性信息,采用自适应的非均匀的滤波器组设置。在宽带信号应用中,DMFCC的作用和效果已经被证明;但在窄带信号应用中,DMFCC还鲜见有成功应用的例子。该文在电话信道下对应用DMFCC进行说话人识别研究,在美国国家标准技术研究院(NIST)2006年说话人识别评测Female核心测试集上,以MFCC作为特征参数的系统的等错误率为7.57%,以DMFCC作为特征参数的系统的等错误率为7.25%,而采用基于逻辑自回归的线性融合方法把基于两种不同特征的系统在分数域进行融合后系统的等错误率可达到6.31%,相对于基于MFCC的系统等错误率下降16.6%。实验表明,在电话信道下直接应用DMFCC可小幅度提高性能;理论分析以及实验结果表明:二者存在一定的互补性,即把DMFCC和MFCC融合应用能够大幅度提高电话信道下说话人识别的性能。相似文献

18.

加性白噪声环境下语音特征参数鲁棒性的研究

孙林慧杨震《南京邮电大学学报(自然科学版)》2005,25(5):53-56

随着说话人识别技术的发展,实用有效的说话人识别系统越来越成为研究的重点。语音特征参数的鲁棒性直接影响一个说话人识别系统的具体性能,过去主要针对移动通信环境下存在信道失真的问题,研究差分倒谱的鲁棒性。文中则主要在加性白噪声环境下研究M el倒谱参数、M el差分倒谱参数的顽健性以及它们经过倒谱系数零均值化(CMN)处理后识别性能的改进。从仿真结果可以看出:在加性白噪声环境下,差分倒谱参数具有很好的鲁棒性;倒谱系数零均值化能有效的除去加性白噪声。相似文献

19.

基于一种新的特征提取的语音辨识

刘嘉骆瑞玲李明《科学技术与工程》2009,9(2)

提出了一种新的二次特征提取的方法应用于说话人语音辨识.首先,通过基于熵的特征筛选方法,有效地剔除不重要或者噪声特征,消除语音特征的冗余,并获得其重要性排序,减少语音特征矢量的维数.然后,采用Fisher准则进一步进行参数选择,按 Fisher 比的大小选择特征向量作为投影轴,将高维空间中的特征矢量映射到低维的特征判别空间,然后以SVM作为分类器实现说话人辨识系统.实验结果表明,本文提出的方法在不影响识别率的情况下可以对输入数据有效降维,在噪音环境下取得了较好的识别效果,增加了系统的鲁棒性. 相似文献

20.

Nonlinear Time-Frequency Distributions of Spectrum Energy Operator in Large Vocabulary Mandarin Speaker Independent Speech Recognition System

王作英《清华大学学报》2003,8(6):667-671

This work demonstrates the use of the nonlinear time-frequency distribution (NL TFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processlng stage and using NL TFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test. 相似文献