首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
性别是语音情感识别中重要的影响因素之一.用机器学习方法和情感语音数据库对语音情感识别的性别差异进行探究,并进一步从声学特征的角度分析了性别影响因素.在两个英文情感数据集以及它们的融合数据集上进行实验,分别用三种分类器对男女语音情感进行识别,并用注意力机制挑选出在男女语音情感识别中的重要特征并比较其差异.结果表明,女性语音的情感识别率高于男性.梅尔倒谱系数、振幅微扰、频谱斜率等频谱特征在男女语音的情感识别中的重要性差异较大.  相似文献   

2.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为...  相似文献   

3.
基于语音声学特征的情感信息识别   总被引:10,自引:0,他引:10  
为提高情感语音识别的正确率,研究了声学参数的统计特征和时序特征在区分情感中的作用,并提出了一种将两者相融合的情感识别方法。在提取出基本的韵律参数和频谱参数后,首先利用PNN(probab ilistic neura l netw ork)和HMM(h idden m arkov m ode l)分别对声学参数的统计特征和时序特征进行处理。计算它们各自属于每类情感的概率,获得采用加法规则和乘法规则融合统计特征和时序特征的识别结果。实验结果表明:各组特征在区分情感方面的侧重不尽相同,通过特征融合,平均识别正确率相较单独采用统计特征或时序特征均有提高,在最好情况下达到了92.9%。这说明了该方法的有效性。  相似文献   

4.
为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。  相似文献   

5.
在源数据不充分或不平衡的情况下,深度学习方法在小样本集上难以取得令人满意的语音情感识别效果。因此,本研究构造了一种三层随机森林情感识别网络,在每一层都单独剥离易于区分的情感类别,并通过重要性评分方法,为每一层网络都构造一个识别特定类别的特征集,该特征集的每一个特征都依据贡献度大小得到赋权,以确保对分类贡献越多的特征因子对结果影响越大。本研究构建的多级情感识别网络,在小样本集语音情感识别的整体识别率上,较单层随机森林网络和支持向量机分别提高了5%和7%,较流行的深度学习方法卷积神经网络提高了12%。实验结果和理论分析表明:基于重要性评分的多级随机森林网络相较于其他方法,在源数据样本量较少和部分不平衡的情况下,有更高的识别准确率,具有语音情感识别方向的实际应用意义。  相似文献   

6.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤....  相似文献   

7.
语音信号中的情感信息是一种很重要的信息资源,仅靠单纯的数学模型搭建和计算来进行语音情感识别就显现出不足。情感是由外部刺激引发人的生理、心理变化,从而表现出来的一种对人或事物的感知状态,因此,将认知心理学与语音信号处理相结合有益于更好地处理情感语音。首先介绍了语音情感与人类认知的关联性,总结了该领域的最新进展和研究成果,主要包括情感数据库的建立、情感特征的提取以及情感识别网络等。其次介绍了基于认知心理学构建的模糊认知图网络在情感语音识别中的应用。接着,探讨了人脑对情感语音的认知机理,并试图把事件相关电位融合到语音情感识别中,从而提高情感语音识别的准确率,为今后情感语音识别与认知心理学交叉融合发展提出了构思与展望。  相似文献   

8.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

9.
语音是人类表达情感的重要方式之一,语音中情感信息的识别已然成为人机交互不可或缺的组成部分,目前的语音情感识别技术存在一定的问题,如冗余大、识别率低等,故提出一种改进KNN识别算法。首先提取能够表征音频情感信息的特征参数,并通过优化算法对其进行筛选,然后对优化特征集运用所提算法进行识别验证。实验结果表明,笔者所提的识别算法能够用于基于语音信息的个体情绪识别状态。  相似文献   

10.
在说话人识别系统中,传统梅尔倒频谱系数(MFCC)所提取特征不能够很好的反映说话人动态特征,尤其在噪声环境中,识别率较低,鲁棒性不足。针对以上问题,提出一种基于改进梅尔倒频谱系数(MFCC)的方法,通过多窗谱估计和一阶、二阶差分的方法提升识别性能。实验结果证明,在纯净语音和添加信噪的情况下,改进后方法的识别准确率都有所提升。当训练集为纯净语音,只为测试集添加噪声时,实验结果依然有较高的准确率。  相似文献   

11.
针对视觉跟踪在复杂背景下因外观特征表征不足等原因造成的目标丢失问题,结合深度光流网络估计的运动特征,文中提出了一种基于时序信息和空间信息自适应融合的视觉跟踪算法。该算法在相关滤波跟踪框架基础上,引入递归全对场变换(RAFT)深度网络估计光流以获取目标的时序信息,提取目标的CN特征和HOG特征获取空间信息,然后融合目标时序信息和空间信息,以增强对目标时空特征的表征能力;其次,建立了一种跟踪结果质量判别机制,实时调整时序信息在融合过程中的权重, 有效提升了算法在复杂动态环境下的泛化能力。为评估算法的有效性,在OTB100和VOT2019两个数据集上进行了测试,实验结果表明,与主流视觉跟踪算法相比,所提算法的跟踪性能获得了显著提升,尤其在运动模糊、快速运动等属性的视频中,具有明显优势。  相似文献   

12.
为了通过设置辅助任务学习到更具有情感倾向性的视频和语音表示,进而提升模态融合的效果,提出一种基于多任务学习的多模态情感识别模型,使用多模态共享层来学习视觉和语音模型的情感信息.在MOSI数据集和MOSEI数据集上的实验表明,添加两个辅助的单模态情感识别任务后,模型可以学习到更有效的单模态情感表示,并且在两个数据集上的情...  相似文献   

13.
语音是人类表达情感的重要方式之一,语音中情感信息的识别已然成为人机交互不可或缺的组成部分。目前的语音情感识别技术存在一定的问题,如冗余大、识别率低等,故提出一种改进k最优邻接点(k-nearest neighbor,KNN)识别算法。首先提取能够表征音频情感信息的特征参数,并通过优化算法对其进行筛选。然后对优化特征集运用所提算法进行识别验证。实验结果表明,所提的识别算法能够用于基于语音信号的个体情绪识别状态。  相似文献   

14.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

15.
为了更好地提取并融合人体骨架中的时序特征和空间特征,文章构建了融合时空域注意力模块的多流卷积神经网络(AE-MCN):针对目前大多数方法在建模骨架序列相关性时因忽略了人体运动特性而没有对运动尺度进行适当建模的问题,引入了自适应选取运动尺度模块,从原尺度动作特征中自适应地提取关键时序特征;为了更好地对特征进行时间维度和空间维度上的建模,设计了融合时空域的注意力模块,通过对高维时空特征进行权重分配,进而帮助网络提取更有效的动作信息。最后,在3个常用的人体动作识别数据集(NTU60、JHMDB和UT-Kinect)上进行了对比实验,以验证AE-MCN网络的有效性。实验结果表明:与ST-GCN、SR-TSL等网络相比,AE-MCN网络都取得了更好的识别效果,证明AE-MCN网络可以对动作信息进行有效的提取与建模,从而获得较好的动作识别性能。  相似文献   

16.
田丽 《科技咨询导报》2008,(29):178-178
利用小波的多尺度性质,在提取语音信号的识别特征之前,用小波对语音信号的有用信息进行处理,并抑制无关信息对识别所产生的干扰。结果表明:经过小波预处理后提取的特征,提高了语音的识别率。  相似文献   

17.
针对传统机器学习方法在采用运动传感器数据的人体运动识别领域中识别效果严重依赖人工特征且准确率受限的问题,提出一种改进的卷积网络与双层长短期记忆网络的深层混合(VGGLSTM)模型以实现特征自提取并进行运动识别。该模型结合传感器数据层状、时序的结构特点,将多维传感器数据类比于图像的RGB矩阵进行适应性处理;由一维串联卷积网络与双层长短期记忆网络复合而成。实验结果表明,在开源的人体运动识别(HAR)数据集和无线传感器信息控掘(WISDM)数据集上采用该模型的人体运动识别方法的平均准确率分别达到了97.17%和96.53%,该模型可以有效避免复杂的特征工程,在人体运动识别问题中具有很好的准确性和适应性。  相似文献   

18.
基于粗神经网络的语音情感识别   总被引:1,自引:1,他引:0  
语音情感识别是从语音信号中提取一些有效的声学特征,然后利用智能计算或者识别的方法对话者的情感状态进行识别。介绍了国内外在该领域中关于语音情感数据库、特征提取、识别方法的研究现状。基于对该领域现状的了解,发现特征提取对识别率有着非常大的影响。录制了1050句语音,每句语音提取了30个特征,从而形成了一个1050×30的数据库。提出了用粗糙集理论中的信息一致性对数据库中的30个特征进行化简,最后得到了12个特征。用神经网络中的BP网络对话者的情感状态进行识别,最高识别率达到了84%。从实验结果发现不同的情感用不同的方法识别结果更好。  相似文献   

19.
为解决单一的卷积神经网络(CNN)缺乏利用时序信息与单一循环神经网络(RNN)对局部信息把握不全问题,提出了融合注意力机制与时空网络的深度学习模型(CLA-net)的人体行为识别方法。首先,通过CNN的强学习能力提取局部特征;其次,利用长短时记忆网络(LSTM)提取时序信息;再次,运用注意力机制获取并优化最重要的特征;最后使用softmax分类器对识别结果进行分类。仿真实验结果表明,CLA-net模型在UCI HAR和DaLiAc数据集上的准确率分别达到95.35%、99.43%,F1值分别达到95.35%、99.43%,均优于对比实验模型,有效提高了识别精度。  相似文献   

20.
为了充分提取治安监控视频中的时空特征和时序特征,并对暴力行为进行准确的识别与检测,提出一种基于三维卷积神经网络(3DCNN)和卷积长短期记忆网络(Conv LSTM)的暴力行为识别算法。首先,采用一种通用视频描述符—3DCNN结构,提取视频的短时特征,这些特征封装了视频中与目标和场景相关的背景信息,然后,构建Conv LSTM网络对3DCNN提取的短时特征在时间轴上进行建模,进而充分提取视频的高层时序特征。最后,利用Sigmoid函数分类行为动作。为了验证该算法的高效性,对所提出的方法在暴力行为数据集Hockey上进行验证,达到了98.96%的识别精度。测试结果表明,该融合模型在检测效果上优于目前人工提取特征的方法和深度学习的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号