首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在说话人识别系统中,提高反映说话人个性的语音信号特征参数的有效性和实时性是问题之一.本文在使用线性预测系数倒谱(LPCC)和美尔倒谱系数(MFCC)计算特征参数的基础上利用Fisher准则,构造了一种新的混合特征参数.这种新的参数在不增加系统计算量的同时,结合了LPCC和MFCC各自的优点,具有更好地表征说话人特征的能力,并在一定程度上消除特征的信息冗余,有利于信息的实时处理.  相似文献   

2.
汉语方言辨识中常用的转移差分倒谱(SDC)特征往往存在较多的冗余信息.对此,提出动态时频倒谱(DT-FC)特征.首先对倒谱矩阵进行离散余弦变换(DCT),然后对变换后的矩阵元素进行重组.基于新特征,在高斯混合模型系统下对闽、粤、吴3种方言进行辨识.实验结果表明,DTFC特征的性能明显优于SDC特征,其平均辨识率可达98.89%,较SDC特征提高了3.1%.  相似文献   

3.
Mel频率倒谱系数在语音识别中是常用的特征参数之一。本文对Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)的提取过程进行了详细分析,找出其两个主要的缺点。并使用线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和小波变换分别对其两个不同的缺点进行了改进。  相似文献   

4.
基于传统特征的行车声音端点检测法存在重叠有车段识别率低、双门限阈值较难确定的问题,针对这两个问题,探索性地将梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)倒谱距离特征和短时能量特征进行了融合并应用于交通量检测。首先选取了周围环境较为安静的一个双车道路段,并采集了该路段上包含重叠有车段的行车声音;其次提取了行车声音的短时能量特征和MFCC倒谱距离特征,并对它们在端点检测中的优劣进行了分析对比;再次提出了一种融合短时能量特征和MFCC倒谱距离特征的新特征,并基于新特征将传统的双门限判决思路改进成了单门限判决思路;最后利用新特征对有车段进行端点检测并统计交通量。实验结果表明:基于融合特征的端点检测方法能有效解决重叠有车段识别率低和双门限阈值较难确定的问题。  相似文献   

5.
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.  相似文献   

6.
为了提高语音感知哈希算法的鲁棒性和识别小范围篡改定位的能力,利用人类听觉模型提出了一种语音感知哈希算法.该算法基于人类听觉特性,首先对倒谱系数MFCC算法每帧的滤波器数量进行控制,得到每帧语音的梅尔频率倒谱参数;其次对自适应梅尔倒谱系数MFCC参数和语音LPCC系数进行融合,并采用分块方法对特征矩阵进行处理,对特征块进行2DNMF分解运算,降低特征矩阵的复杂度;最后对分解后的系数矩阵进行哈希构造,得到语音感知哈希串,利用哈希匹配实现语音认证.结果表明:该算法可以有效提高哈希认证的鲁棒性,并能够实现语音小范围篡改定位功能.  相似文献   

7.
姜琦  冯庆胜 《科学技术与工程》2022,22(16):6680-6686
为了准确地识别铁路转辙机所处的工作状态,保证列车能够安全行驶并转向,提出了一种基于声音信号的转辙机状态识别方法。首先将声音信号预处理后提取其梅尔倒谱系数(Mel frequency cepstrum coefficient, MFCC);为更加全面表征转辙机声信号的特点,对MFCC进行改进得到多尺度MFCC特征;引入卷积神经网络(convolutional neural network, CNN)构建转辙机声信号识别模型,并采用五折交叉验证法获得两种特征的识别准确率。将S700K型转辙机在4种状态下运行时采集的真实声音信号进行训练和测试。结果表明:多尺度MFCC特征可使转辙机声音状态识别准确率至少提高7.5%。并且在低信噪比(signal-to-noise ratio, SNR)下,多尺度MFCC特征也有更好的表现,其准确率相较传统MFCC可提升35%。  相似文献   

8.
王蕾  孟慧杰 《科技信息》2010,(33):48-49
说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文重点研究在噪声环境下,话者识别中语音信号的特征提取。应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括LPCC、MEL倒谱系数、线性预测倒谱系数等,对这些参数进行分析和比较,以达到话者识别的目的。  相似文献   

9.
为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数(MFCC)与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。  相似文献   

10.
基于MFCC和GMM的个性音乐推荐模型   总被引:1,自引:1,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%.  相似文献   

11.
在借鉴和改进了一种新的语种辨识方法———基于高斯混合模型(GMM)符号化和语言模型方法———的基础上,建立了一个汉语方言自动辨识系统.实验使用了一个多说话人、非特定文本、连续语音汉语方言语音库进行系统测试.在3种主要汉语方言的辨识中,15 s语料测试平均辨识率达到了90.7%.  相似文献   

12.
汪兰兰  蔡昌新 《科学技术与工程》2022,22(26):11524-11532
针对目前常见的语音特征提取方法应用于真实环境中,所提取的语音特征包含有噪声干扰的问题,进而导致情感识别时出现的分类模糊化情况,为此提出一种新的语音特征提取方法,即线性预测基音频率特征提取方法。它主要是基于线性预测系数来构建模型,利用构建的模型消除声道响应信息以及抑制噪声干扰。由于此方法对于分类模糊化问题没有得到较好改善,利用模型相同的LPCMCC(LPC Mel cepstral coefficients,LPC美尔倒频谱系数)来对线性预测基音频率进行改进,并设计基于线性预测基音频率、其改进特征、LPCMCC与SVM(support vector machines,支持向量机)的语音情感识别对比实验。对比实验表明,此改进特征提取方法应用在情感识别领域的平均精度最高为84%,比线性预测基音频率和LPCMCC要高出22%、14%。为了测试此改进特征在真实环境中的分类效果,在此改进特征的基础上设计了一种基于MATLAB GUI技术的语音情感识别系统。实验结果表明这种新的改进特征能有效改善情感识别时出现的分类模糊化情况,基于此改进特征的语音情感系统能广泛地识别出噪声干扰下的说话人情感。  相似文献   

13.
从基于言语知觉特性的声母区别特征出发,观察MFCC和美尔能量取值在区别特征有无上的表现差异,修正了声母区别特征的客观参数特性,与修正前的结果相比更合理。定义含有区别特征参数特性的语音帧为有效帧,在自然音节中通过能量确定出声母初判范围位置的基础上,利用该范围内有效帧的含量Para作为检测探针,实现自然音节状态下声母区别特征检测。正检率在80%左右。  相似文献   

14.
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network, CNN)部分可以进行下采样,循环神经网络(recurrent neural network, RNN)部分解决语音中的时序问题,深度神经网络(deep neural network, DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstr...  相似文献   

15.
变异特征加权的异常语音说话人识别算法   总被引:1,自引:1,他引:0  
常用的加权算法难以跟踪非常态语音特征的变异,为此,文中提出了一种变异特征加权的异常语音说话人识别算法.首先统计大量正常语音各阶MFCC特征的概率分布,建立正常语音特征模板;然后用测试语音特征与正常语音特征模板之间的K-L距离和欧氏距离来度量语音的变异程度,确定K-L加权因子和欧氏加权因子;最后利用加权因子对测试语音的MFCC特征进行加权,并将加权后的特征输入高斯混合模型进行异常语音说话人识别.实验结果表明,文中提出的K-L加权和欧氏加权的异常语音说话人识别算法的整体识别率分别为46.61%和42.25%,而基于各阶特征对说话人识别贡献的加权算法和不加权算法的整体识别率分别为39.68%和36.36%.  相似文献   

16.
为了增加主动式脑-机接口(BCI)指令集的数量,提出了一种基于运动想象和言语想象的时序编码实验范式。通过将1个运动想象和1个言语想象分时序进行,获得了4类想象方式:1)运动想象;2)言语想象;3)先运动想象再言语想象;4)先言语想象再运动想象。针对上述实验范式的脑电信号设计一种基于注意力与多尺度神经网络(AMEEGNet):首先通过一个空洞卷积和三个不同大小尺度的二维卷积提 取信号的鲁棒性时间表示;然后使用深度卷积和可分离卷积提取空间特征和频域特征;此外,在模型中添加挤压激励模块,以自适应提取具有高分类精度的特征;最后采用一个具有全连接的网络层进行分类。该模型在拥有四类想象的时序编码实验数据集上获得了71.1%的平均准确度,且在同一数据集上EEGNet,MMCNN,Shallow ConvNet,TSGL-EEGNet分别取得57.9%,60.5%,68.3%,68.4%的精度,可见所提模型识别准确率最高。  相似文献   

17.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

18.
用DSP技术开发的一种新的语音识别系统   总被引:2,自引:0,他引:2  
本文介绍了一种基于听觉谱特征参数的语音识别方法和系统.该系统采用高速DSP芯片TMS320C25,实现了语音信号的实时处理.用由此芯片开发的EISA插卡与计算机结合,构成了一个智能化语音输入实时识别系统.实验结果表明,在小词汇量特定人条件下,该系统的正识率可达到98%以上,在非特定人和有噪情况下,系统正识率分别为95%和90%以上.通过比较发现,该系统在正识率、抗噪性和鲁棒性等方面均比传统识别方法要好  相似文献   

19.
对LPC(线性预测系数)参数及其派生参数进行了研究,重点讨论了各参数的计算方法,在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明,与LPC参数的派生参数相比,该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果;与直接使用LPC参数相比,该组合参数能够在运算量增加不明显的情况下改进系统的性能,特别是在测试音长度较短的情况下,对性能的改进尤为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号