期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曹欣怡李鹤王蔚《南京大学学报(自然科学版)》2019,(5)

性别是语音情感识别中重要的影响因素之一.用机器学习方法和情感语音数据库对语音情感识别的性别差异进行探究,并进一步从声学特征的角度分析了性别影响因素.在两个英文情感数据集以及它们的融合数据集上进行实验,分别用三种分类器对男女语音情感进行识别,并用注意力机制挑选出在男女语音情感识别中的重要特征并比较其差异.结果表明,女性语音的情感识别率高于男性.梅尔倒谱系数、振幅微扰、频谱斜率等频谱特征在男女语音的情感识别中的重要性差异较大. 相似文献

2.

基于卷积神经网络的鲁棒性说话人识别方法

曾春艳马超峰王志锋孔祥斌《华中科技大学学报(自然科学版)》2020,48(6):39-44

为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法. 相似文献

3.

基于时空特征融合的语音情感识别

彭涛郑传锟张自力刘军平胡新荣何儒汉《郑州大学学报(理学版)》2022,(4):42-48

语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。相似文献

4.

基于改进MFCC的说话人特征参数提取算法

高铭孙仁诚《青岛大学学报(自然科学版)》2019,(1)

在说话人识别系统中,传统梅尔倒频谱系数(MFCC)所提取特征不能够很好的反映说话人动态特征,尤其在噪声环境中,识别率较低,鲁棒性不足。针对以上问题,提出一种基于改进梅尔倒频谱系数(MFCC)的方法,通过多窗谱估计和一阶、二阶差分的方法提升识别性能。实验结果证明,在纯净语音和添加信噪的情况下,改进后方法的识别准确率都有所提升。当训练集为纯净语音,只为测试集添加噪声时,实验结果依然有较高的准确率。相似文献

5.

基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统

茅正冲王俊俊《南京理工大学学报(自然科学版)》2018,(1)

为了提高说话人识别系统的性能,该文在传统特征的基础上提出利用相位特征对听觉倒谱特征进行补偿的方法。该方法利用Teager能量算子(Teager energy operator,TEO)能够真实反映气流在通过声道系统呈现的涡流非线性作用的模型,再利用希尔伯特变换从TEO导出分析信号的瞬时相位信息,结合耳蜗倒谱系数(Cochlear filter cepstral coefficients,CFCC)得到融合特征参数。实现了对特征参数的补偿,提高了说话人识别系统的识别率。使用NIST-2002说话者识别评估(Speakers recognition evaluation,SRE)数据库,在高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)的说话人识别系统上进行实验。实验结果表明TEO相位与CFCC的结合比单独CFCC更好,其识别精度比现有的CFCC特征和线性预测梅尔频率倒谱系数(Linear prediction Meyer frequency cepstral coefficient,LPMFCC)分别提高了8.32%和3.15%。这表明TEO相位包含与CFCC特征互补的信息,且具有较高的识别率。相似文献

6.

PSO与PCA融合优化核极限学习机说话人识别算法仿真

苗凤娟孙同日陶佰睿李敬有张光妲刘凯达《科学技术与工程》2019,19(21):195-199

基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal component analysis,PCA)对MFCC进行降维优化、粒子群优化算法(particle swarm optimization,PSO)对KELM初始输入参数进行优化开展基于PSO和PCA融合优化KELM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过,并与MATLAB语音工具箱提供的神经网络和支持向量机说话人识别算法做了性能对比分析。仿真研究结果表明:通过PSO和PCA融合优化改进的KELM,初始输入参数可以任意确定并且不需要迭代更新,并能有效克服因初始权重随机确定导致的性能不稳定,进一步提高分类匹配和运算速度,具有很好的推广应用价值。相似文献

7.

基于改进线性预测基音频率的语音情感识别系统

汪兰兰蔡昌新《科学技术与工程》2022,22(26):11524-11532

针对目前常见的语音特征提取方法应用于真实环境中,所提取的语音特征包含有噪声干扰的问题,进而导致情感识别时出现的分类模糊化情况,为此提出一种新的语音特征提取方法,即线性预测基音频率特征提取方法。它主要是基于线性预测系数来构建模型,利用构建的模型消除声道响应信息以及抑制噪声干扰。由于此方法对于分类模糊化问题没有得到较好改善,利用模型相同的LPCMCC(LPC Mel cepstral coefficients,LPC美尔倒频谱系数)来对线性预测基音频率进行改进,并设计基于线性预测基音频率、其改进特征、LPCMCC与SVM(support vector machines,支持向量机)的语音情感识别对比实验。对比实验表明,此改进特征提取方法应用在情感识别领域的平均精度最高为84%,比线性预测基音频率和LPCMCC要高出22%、14%。为了测试此改进特征在真实环境中的分类效果,在此改进特征的基础上设计了一种基于MATLAB GUI技术的语音情感识别系统。实验结果表明这种新的改进特征能有效改善情感识别时出现的分类模糊化情况,基于此改进特征的语音情感系统能广泛地识别出噪声干扰下的说话人情感。相似文献

8.

面向多场景的环境异常声音识别

郑文宾何蔚《科学技术与工程》2023,23(17):7444-7449

随着人工智能和大数据的发展,各种场景中对异常声音识别的需求日益增长,基于人工智能的声音识别技术正在兴起并被高度重视。现行主流的异常声音识别算法多为浅层机器学习模型结构,对异常声音的识别率较低,且识别的声音类型单一。为了有效识别异常声音,提出一种基于梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)和卷积神经网络(convolution neural network, CNN)的环境声音识别算法,对各类异常声音进行采集和有效识别,并及时反馈声音状态,为各类声识别应用场景提供精细化管理技术手段。结果表明：提出的算法对5类场景下环境异常声音的识别率得到极大提高,适用于更广泛的声学场景,具有明显的优势。相似文献

9.

基于动态时间规整算法的语音识别技术研究

《科技资讯》2017,(26)

语音控制作为一种新型的人机交互手段,给用户带来更多的操作体验,在很多特定场景中具有必要性。本文将梅尔倒谱系数(MFCC)作为语音特征参数,采用动态时间规整算法(DTW)进行模式识别和分类,实现了小样本孤立词汇的实时识别,具有高识别率。在基本算法的基础上进行了边界条件改进,克服了端点检测缺陷。在语音特征提取上,分析比较了线性预测系数(LPC)和梅尔倒谱系数(MFCC)作为特征参数的优缺点,最后选定基于人耳听觉特性的MFCC作为语音特征参数。语音信号采用NI公司USB-6218采集卡将数据直接传输至MATLAB开发平台,在MATLAB集成环境下实现了语音识别程序。实验结果表明,系统可以实现6个特定的孤立词识别,满足实时性和准确性要求。相似文献

10.

基于MFCC与CHMM的方向指令语音识别

陈科林江莉《成都大学学报(自然科学版)》2017,36(2)

随着科学技术尤其是计算机技术的不断发展,语音识别被广泛应用到各个领域.针对方向指令的语音,使用梅尔倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)作为特征参数,连续马尔科夫模型(Continuous Hidden Markov Model,CHMM)作为识别模型,对语音信号进行识别处理.实验结果显示,此方法在方向指令语音识别中取得了良好的结果,有较高的识别准确率. 相似文献

11.

基于CGRU模型的语音情感识别研究与实现

郑艳陈家楠吴凡付彬《东北大学学报(自然科学版)》2020,41(12):1680-1685

语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取，但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题，提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型，从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征，并通过随机森林对其进行特征选择，在三种公用的情感语料库EMODB，SAVEE，RAVDESS上分别取得了79%，69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充，进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性. 相似文献

12.

基于CTC-GRU模型的长沙方言识别

梁小林沈湘菲梁曌邱海琳《吉首大学学报(自然科学版)》2022,43(2):45-52

为了识别大词汇量下连续长沙话方言语音,提出了基于CTC算法的门控线性单元神经网络模型.先通过梅尔倒谱系数提取语音的特征参数,再把提取的特征参数输入门控线性单元神经网络,用CTC算法进行训练优化,得到输入序列整个的预测标签.最后在自建的长沙话方言语料库上,以词错率作为评价指标,对CTC模型、GRU模型和CTC-GRU模型进行对比,结果表明CTC-GRU模型相对于其他2个模型收敛速度更快,结果更精准. 相似文献

13.

一种客观音质评价的新方法

吴淑珍 PoLS LCW 《北京大学学报(自然科学版)》1997,33(5):627-632

主要讨论了一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法，它是在使用ＬＰＣ倒谱距离评价普通话语音质量的基础上发展起来的，语音频谱动态特性是利用倒谱对时间的回归分析来表示的，这种度量方法中，使用倒谱系数，倒谱回归系数和能量回归系数３个参数的距离测量，在使用了谱包络信息的基础上，考虑了谱包络随时间的变化量及信号能量随时间的变化，比较了４种距离估算方法和主观音质评价（ＭＯ相似文献

14.

基于深度神经网络的语音情感识别方法

杨明极张家彬《科学技术与工程》2019,19(8)

语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。相似文献

15.

基于注意力机制的卷积循环网络语音降噪

徐浩森姜囡齐志坤《科学技术与工程》2022,22(5):1950-1957

不同噪声在频谱上具有不同的特性,为了解决卷积神经网络对含有不同噪声的语音降噪的局限性,通过引入通道注意力机制作为卷积循环网络的中间层,将卷积层中不同功能的卷积核赋予不同的权重,使模型在训练时能够对输入数据更有针对性地去除噪声部分,从而达到更好的降噪效果。针对含有15种噪声的含噪语音分别应用循环神经网络、编解码卷积网络和卷积循环神经网络等三种模型进行降噪处理,结果表明引入注意力机制的模型相比于其他两种模型,在感知语音质量评价(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short time objective intelligibility, STOI)评分上都有所提高,且引入注意力机制的模型能够更好地保留语音的谐波信息。相似文献

16.

基于文本情感特征的心理评估模型

杜天宝于纯浩温卓孔馨《吉林大学学报(理学版)》2019,57(4):927-932

构建基于文本情感特征的心理评估模型. 首先, 根据词语的情感极性和词性设计词语特征, 将文本中的每个词语映射成情感词向量, 进而将其作为卷积神经网络的输入, 并加入注意力机制对输出结果进行优化, 得到包含情感特征的文本向量表示. 其次, 使用Bayes正则化算法优化权值, 控制并平衡神经网络拟合程度, 改进BP神经网络算法的网络泛化能力. 最后, 将文本向量作为Bayes正则化神经网络的输入, 预测学生的心理状态, 与心理评估结果的对比实验结果表明, 模型效果较理想. 相似文献

17.

一类新的实时语音端点检测方法

吴龙梅张建军赵风光张云雁《上海大学学报(自然科学版)》2005,11(4):372-374,385

该文对语音端点检测的能量状态变迁算法进行了改进,同时把能量差、Lpc系数和倒谱系数应用在改进后的状态机中,得到了新的语音端点检测算法。实验表明,这些改进算法的检测性能很好,端点检测结果准确度高。模拟实验表明,这些算法具有较强的鲁棒性,其中基于倒谱系数的能量状态方法性能最好。相似文献

18.

基于改进卷积神经网络与动态衰减学习率的环境声音识别算法

冯陈定李少波姚勇杨静《科学技术与工程》2019,19(1)

环境声音识别在音频检索、监控方面有着广泛的应用,是听觉识别任务中的一个热门研究领域。但由于其声音信号的复杂多变,使得该任务在识别率提升方面依然面临许多挑战。针对这一问题本文提出了基于改进卷积神经网络的环境识别模型（S-CNN）,该模型采用反复堆叠的递减型卷积核提取不同尺度的局部特征,并在每层卷积层后采用Batch Normalization（BN）层对特征进行归一化操作。同时,利用动态衰减的学习率训练模型,以提高模型收敛速度与收敛稳定性。实验结果表明,相比于传统的机器学习与卷积神经网络模型,本文所设计的改进卷积神经网络模型S-CNN具有更好的识别率。在ESC-10环境声音数据库上,识别精度达到91.3%。相似文献

19.

说话人识别的参量研究和语音库建设 总被引：4，自引：0，他引：4

吴淑珍吴阿华《北京大学学报(自然科学版)》1995,31(3):316-322

本文对说话人识别中的几个基本问题进行了研究。语音参量是说话人识别的基础,用矢量量化方法,使用自建的语音库中的材料,研究了说话人识别中的各种参量的效果。实验表明,所采用的参量中,一种混合参量MC最好,倒谱系数CE次之。相似文献

20.

加权倒谱距离用于普通话客观音质评价 总被引：1，自引：3，他引：1

吴淑珍邱小军《北京大学学报(自然科学版)》1992,28(3):316-320

本文主要讨论使用一种加权倒谱距离测量对通信系统或通信设备的话音质量进行客观音质评价。它是在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的。这种度量方法是利用倒谱系数方差的倒数做权的一种统计加权距离度量。实验结果表明:这种加权倒谱距离度量结果优于LPC倒谱距离及其它度量方法。相似文献