期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张芸李昕郑宇杨庆涛《兰州大学学报(自然科学版)》2007,43(2):92-97

在说话人识别系统中,提高反映说话人个性的语音信号特征参数的有效性和实时性是问题之一.本文在使用线性预测系数倒谱(LPCC)和美尔倒谱系数(MFCC)计算特征参数的基础上利用Fisher准则,构造了一种新的混合特征参数.这种新的参数在不增加系统计算量的同时,结合了LPCC和MFCC各自的优点,具有更好地表征说话人特征的能力,并在一定程度上消除特征的信息冗余,有利于信息的实时处理. 相似文献

2.

语音信号的动态时频倒谱特征

孙平顾明亮张彪高原张宁《徐州师范大学学报(自然科学版)》2011,(3):58-61

汉语方言辨识中常用的转移差分倒谱(SDC)特征往往存在较多的冗余信息.对此,提出动态时频倒谱(DT-FC)特征.首先对倒谱矩阵进行离散余弦变换(DCT),然后对变换后的矩阵元素进行重组.基于新特征,在高斯混合模型系统下对闽、粤、吴3种方言进行辨识.实验结果表明,DTFC特征的性能明显优于SDC特征,其平均辨识率可达98.89%,较SDC特征提高了3.1%. 相似文献

3.

Mel频率倒谱系数的提取与改进

董建彬马艳玲《科技信息》2008,(15)

Mel频率倒谱系数在语音识别中是常用的特征参数之一。本文对Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)的提取过程进行了详细分析,找出其两个主要的缺点。并使用线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和小波变换分别对其两个不同的缺点进行了改进。相似文献

4.

基于离散谐波变换的西洋乐器音色特征提取方法

孙聪珊杨婧马琳李海峰《复旦学报(自然科学版)》2020,(5):531-539

音色是乐器识别的依据,考虑到乐音信号的谐波对音色的物理意义,本文提出具有良好稀疏性的离散谐波变换(Discrete Harmonic Transform,DHT)用于乐音信号谐波结构提取,并通过DHT构建了描述乐器音色的DHT特征.通过将本文提出的特征应用于不同复杂度的乐器音频数据集,验证了本文所提出的DHT方法的有效性,在此基础上构建的DHT特征能很好地反应乐器音色的特征,为乐音信号的特征提取提供了新思路.进一步,将本文提出的DHT特征与线性倒谱预测系数(Linear Prediction Cepstrum Coefficient,LPCC)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)构成的组合特征分别应用于乐器演奏的单音和乐曲片段数据集的乐器识别中,与现有算法相比,新算法在较低特征维数下达到了更高的乐器识别的准确率. 相似文献

5.

基于行车声音端点检测的交通量统计

马庆禄邹政刘丰杰《科学技术与工程》2020,20(4):1676-1683

基于传统特征的行车声音端点检测法存在重叠有车段识别率低、双门限阈值较难确定的问题,针对这两个问题,探索性地将梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)倒谱距离特征和短时能量特征进行了融合并应用于交通量检测。首先选取了周围环境较为安静的一个双车道路段,并采集了该路段上包含重叠有车段的行车声音;其次提取了行车声音的短时能量特征和MFCC倒谱距离特征,并对它们在端点检测中的优劣进行了分析对比;再次提出了一种融合短时能量特征和MFCC倒谱距离特征的新特征,并基于新特征将传统的双门限判决思路改进成了单门限判决思路;最后利用新特征对有车段进行端点检测并统计交通量。实验结果表明:基于融合特征的端点检测方法能有效解决重叠有车段识别率低和双门限阈值较难确定的问题。相似文献

6.

基于多特征融合的GMM汉语普通话口音识别

《华中科技大学学报(自然科学版)》2015,(Z1)

提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%. 相似文献

7.

融合MFCC和LPCC的语音感知哈希算法

黄羿博张秋余袁占亭杨仲平《华中科技大学学报(自然科学版)》2015,(2):124-128

为了提高语音感知哈希算法的鲁棒性和识别小范围篡改定位的能力,利用人类听觉模型提出了一种语音感知哈希算法.该算法基于人类听觉特性,首先对倒谱系数MFCC算法每帧的滤波器数量进行控制,得到每帧语音的梅尔频率倒谱参数;其次对自适应梅尔倒谱系数MFCC参数和语音LPCC系数进行融合,并采用分块方法对特征矩阵进行处理,对特征块进行2DNMF分解运算,降低特征矩阵的复杂度;最后对分解后的系数矩阵进行哈希构造,得到语音感知哈希串,利用哈希匹配实现语音认证.结果表明:该算法可以有效提高哈希认证的鲁棒性,并能够实现语音小范围篡改定位功能. 相似文献

8.

基于多尺度梅尔倒谱系数的转辙机声信号状态识别方法

姜琦冯庆胜《科学技术与工程》2022,22(16):6680-6686

为了准确地识别铁路转辙机所处的工作状态,保证列车能够安全行驶并转向,提出了一种基于声音信号的转辙机状态识别方法。首先将声音信号预处理后提取其梅尔倒谱系数(Mel frequency cepstrum coefficient, MFCC);为更加全面表征转辙机声信号的特点,对MFCC进行改进得到多尺度MFCC特征;引入卷积神经网络(convolutional neural network, CNN)构建转辙机声信号识别模型,并采用五折交叉验证法获得两种特征的识别准确率。将S700K型转辙机在4种状态下运行时采集的真实声音信号进行训练和测试。结果表明：多尺度MFCC特征可使转辙机声音状态识别准确率至少提高7.5%。并且在低信噪比(signal-to-noise ratio, SNR)下,多尺度MFCC特征也有更好的表现,其准确率相较传统MFCC可提升35%。相似文献

9.

噪声环境下话者识别系统的特征提取

王蕾孟慧杰《科技信息》2010,(33):48-49

说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文重点研究在噪声环境下,话者识别中语音信号的特征提取。应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括LPCC、MEL倒谱系数、线性预测倒谱系数等,对这些参数进行分析和比较,以达到话者识别的目的。相似文献

10.

基于多特征融合的SVM声学场景分类算法研究 总被引：1，自引：0，他引：1

赵薇靳聪涂中文 SRIDHAR Krishnan 刘杉《北京理工大学学报》2020,40(1):69-75

针对DCASE2017挑战赛的声场环境数据集,提取梅尔频率倒谱系数(MFCC)、短时能量(SE)、声学事件似然特征(AELF)、静音时间(MT)特征,组成多特征融合矩阵,通过对比多种核函数和寻优算法,最终选取高斯径向基核函数(RK)建立支持向量机(SVM)模型,采用交叉验证(CV)方法进行SVM参数寻优,对15种声学场景进行分类.实验结果表明,杂货店、办公室的分类准确性达到了90%以上,平均分类准确性达到71.11%,远高于挑战赛的基线系统61%的平均分类准确性. 相似文献

11.

基于符号化和语言模型方法的汉语方言自动辨识

沈兆勇顾明亮《徐州师范大学学报(自然科学版)》2006,24(2):54-57

在借鉴和改进了一种新的语种辨识方法———基于高斯混合模型(GMM)符号化和语言模型方法———的基础上,建立了一个汉语方言自动辨识系统.实验使用了一个多说话人、非特定文本、连续语音汉语方言语音库进行系统测试.在3种主要汉语方言的辨识中,15 s语料测试平均辨识率达到了90.7%. 相似文献

12.

基于改进线性预测基音频率的语音情感识别系统

汪兰兰蔡昌新《科学技术与工程》2022,22(26):11524-11532

针对目前常见的语音特征提取方法应用于真实环境中,所提取的语音特征包含有噪声干扰的问题,进而导致情感识别时出现的分类模糊化情况,为此提出一种新的语音特征提取方法,即线性预测基音频率特征提取方法。它主要是基于线性预测系数来构建模型,利用构建的模型消除声道响应信息以及抑制噪声干扰。由于此方法对于分类模糊化问题没有得到较好改善,利用模型相同的LPCMCC(LPC Mel cepstral coefficients,LPC美尔倒频谱系数)来对线性预测基音频率进行改进,并设计基于线性预测基音频率、其改进特征、LPCMCC与SVM(support vector machines,支持向量机)的语音情感识别对比实验。对比实验表明,此改进特征提取方法应用在情感识别领域的平均精度最高为84%,比线性预测基音频率和LPCMCC要高出22%、14%。为了测试此改进特征在真实环境中的分类效果,在此改进特征的基础上设计了一种基于MATLAB GUI技术的语音情感识别系统。实验结果表明这种新的改进特征能有效改善情感识别时出现的分类模糊化情况,基于此改进特征的语音情感系统能广泛地识别出噪声干扰下的说话人情感。相似文献

13.

自然音节状态下声母区别特征检测

徐益华刘亚丽孟子厚《中国传媒大学学报》2015,(5):29-34

从基于言语知觉特性的声母区别特征出发,观察MFCC和美尔能量取值在区别特征有无上的表现差异,修正了声母区别特征的客观参数特性,与修正前的结果相比更合理。定义含有区别特征参数特性的语音帧为有效帧,在自然音节中通过能量确定出声母初判范围位置的基础上,利用该范围内有效帧的含量Para作为检测探针,实现自然音节状态下声母区别特征检测。正检率在80%左右。相似文献

14.

基于卷积循环神经网络的语音逻辑攻击检测

杨海涛王华朋楚宪腾牛瑾琳林暖辉张琨瑶《科学技术与工程》2022,22(18):7937-7944

语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network, CNN)部分可以进行下采样,循环神经网络(recurrent neural network, RNN)部分解决语音中的时序问题,深度神经网络(deep neural network, DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstr... 相似文献

15.

基于注意力与多尺度的4类脑电信号解码

任玲玲王力黄学文詹倩倩《科学技术与工程》2022,22(34):15180-15187

为了增加主动式脑-机接口（BCI）指令集的数量,提出了一种基于运动想象和言语想象的时序编码实验范式。通过将1个运动想象和1个言语想象分时序进行,获得了4类想象方式：1）运动想象;2）言语想象;3）先运动想象再言语想象;4）先言语想象再运动想象。针对上述实验范式的脑电信号设计一种基于注意力与多尺度神经网络（AMEEGNet）：首先通过一个空洞卷积和三个不同大小尺度的二维卷积提取信号的鲁棒性时间表示;然后使用深度卷积和可分离卷积提取空间特征和频域特征;此外,在模型中添加挤压激励模块,以自适应提取具有高分类精度的特征;最后采用一个具有全连接的网络层进行分类。该模型在拥有四类想象的时序编码实验数据集上获得了71.1%的平均准确度,且在同一数据集上EEGNet,MMCNN,Shallow ConvNet,TSGL-EEGNet分别取得57.9%,60.5%,68.3%,68.4%的精度,可见所提模型识别准确率最高。相似文献

16.

基于深度神经网络的语音情感识别方法

杨明极张家彬《科学技术与工程》2019,19(8)

语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。相似文献

17.

变异特征加权的异常语音说话人识别算法 总被引：1，自引：1，他引：0

何俊李艳雄贺前华李威《华南理工大学学报(自然科学版)》2012,40(3):106-111

常用的加权算法难以跟踪非常态语音特征的变异,为此,文中提出了一种变异特征加权的异常语音说话人识别算法.首先统计大量正常语音各阶MFCC特征的概率分布,建立正常语音特征模板;然后用测试语音特征与正常语音特征模板之间的K-L距离和欧氏距离来度量语音的变异程度,确定K-L加权因子和欧氏加权因子;最后利用加权因子对测试语音的MFCC特征进行加权,并将加权后的特征输入高斯混合模型进行异常语音说话人识别.实验结果表明,文中提出的K-L加权和欧氏加权的异常语音说话人识别算法的整体识别率分别为46.61%和42.25%,而基于各阶特征对说话人识别贡献的加权算法和不加权算法的整体识别率分别为39.68%和36.36%. 相似文献

18.

用DSP技术开发的一种新的语音识别系统 总被引：2，自引：0，他引：2

余小清万旺根陶安袁京贤《上海大学学报(自然科学版)》1999,5(2):110-114

本文介绍了一种基于听觉谱特征参数的语音识别方法和系统．该系统采用高速ＤＳＰ芯片ＴＭＳ３２０Ｃ２５,实现了语音信号的实时处理．用由此芯片开发的ＥＩＳＡ插卡与计算机结合,构成了一个智能化语音输入实时识别系统．实验结果表明,在小词汇量特定人条件下,该系统的正识率可达到９８％以上,在非特定人和有噪情况下,系统正识率分别为９５％和９０％以上．通过比较发现,该系统在正识率、抗噪性和鲁棒性等方面均比传统识别方法要好相似文献

19.

基于LPC分析的语音特征参数研究及其在说话人识别中的应用 总被引：1，自引：0，他引：1

张玲华郑宝玉杨震《南京邮电大学学报(自然科学版)》2005,25(6):1-6

对LPC(线性预测系数)参数及其派生参数进行了研究,重点讨论了各参数的计算方法,在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明,与LPC参数的派生参数相比,该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果;与直接使用LPC参数相比,该组合参数能够在运算量增加不明显的情况下改进系统的性能,特别是在测试音长度较短的情况下,对性能的改进尤为明显。相似文献