共查询到17条相似文献,搜索用时 74 毫秒
1.
为了克服传统核判别方法将样本唯一归属于某一类的不足,基于模糊集理论对传统的核判别分析方法进行改进,引入了模糊类别隶属度并详细分析了基于模糊核判别分析的语音情感识别。识别实验中采用VQ方法进行了特征参数的融合,根据实验结果对模糊核判别分析和核判别分析的性能进行了比较和分析。 相似文献
2.
基于长短时特征融合的语音情感识别方法 总被引:1,自引:0,他引:1
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征.针对这2类基于不同时长的情感特征均不能够最有效地表达情感信息的问题,该文提出使用"语段特征"用于识别,并给出了各类情感状态对应的"最佳识别段长".为进一步提高系统识别性能,该文还构建了全局控制Elman神经网络用于将全局统计特征与基于语段的时序特征相融合.实验表明;融合长短时特征后的平均系统识别率可达66.0%,与单独使用各类特征或语段特征相比分别提高了5.9%和1.7%,同时有效降低了各情感之间的混淆度. 相似文献
3.
基于韵律语段的语音情感识别方法研究 总被引:2,自引:0,他引:2
语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。结果表明,使用敏感韵律段特征的系统识别率达到67.9%,与使用定长语段特征相比有了很大的提高。 相似文献
4.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。 相似文献
5.
选取三种典型的情感状态,通过对在不同情感状态下大量取样的语音样本的基频、能量、时长及相关韵律特征参数作统计分析,基于统计结果使用PCA方法进行情感状态识别实验,识别准确率达91.67%.结合情感识别结果,使用DTW算法通过模式匹配进行小词汇表的语音识别,提高语音识别正确率;给出输出语音韵律特征参数的调整方法,使人机语音交互得到更加人性化的改进. 相似文献
6.
基于MFCC的语音情感识别 总被引:4,自引:0,他引:4
情感语音中携带着丰富的信息,在人机交互领域有着广阔的应用.Mel频率是基于人耳听觉特性提出来的.它与Hz频率成非线性对应关系.Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域.由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降.因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC.针对该问题进行了研究,修正了Hz-Mel非线性对应关系,提升了中高频系数的计算精度,并将其作为低频MFCC的补充,应用到语音情感识别中.实验证明,改进之后的算法与经典算法比较,在不同的特征组合上识别率都有不同程度的提高,从而证明了Mid MFCC特征计算方法的有效性. 相似文献
7.
8.
针对语音情感线性参数在刻画不同情感类型特征上的不足,将多重分形理论引人语音情感识别中.通过分析不同语音情感状态下的多重分形特征,提取多重分形谱参数和广义hurst指数作为新的语音情感特征参数,并结合传统语音声学特征,采用支持向量机SVM对其进行语音情感识别.试验结果表明,该方法可使系统的准确率和稳定性得到有效提高.非线... 相似文献
9.
基于语音的自动人类情感识别是近年来新兴的研究课题,它在人机通信中有广阔的应用前景。分别利用语音的短时和长时特征识别说话者的五种情感状态,即生气、高兴、悲伤、惊奇和一种无情感状态。提出了一种基于基音频率、子带频谱能量与共振峰频率的短时特征矢量和一种反映能量频谱分布及动态的长时特征参数,分别利用隐马尔可夫模型和支持矢量机两种方法进行识别。试验用的情感语音包括一个普通话情感语音库和一个丹麦语情感语音库,试验结果表明使用两类特征参数都可以得到较高的识别率。 相似文献
10.
近年来随着国内人工智能技术的发展,对机器狗的研究日趋深入.情感在人类的感知、决策等过程扮演着重要角色,语音作为人类和机器狗重要的交流媒介,携带着丰富的情感信息.如何使机器狗从语音中自动识别的主人情感状态受到人工智能领域研究者的关注.本文从语音情感识别所涉及的情感语音数据库、语音中的情感特征和语音情感识别算法几个重要问题出发,研究了情感语音机器狗的实现方法. 相似文献
11.
基于语音声学特征的情感信息识别 总被引:10,自引:0,他引:10
为提高情感语音识别的正确率,研究了声学参数的统计特征和时序特征在区分情感中的作用,并提出了一种将两者相融合的情感识别方法。在提取出基本的韵律参数和频谱参数后,首先利用PNN(probab ilistic neura l netw ork)和HMM(h idden m arkov m ode l)分别对声学参数的统计特征和时序特征进行处理。计算它们各自属于每类情感的概率,获得采用加法规则和乘法规则融合统计特征和时序特征的识别结果。实验结果表明:各组特征在区分情感方面的侧重不尽相同,通过特征融合,平均识别正确率相较单独采用统计特征或时序特征均有提高,在最好情况下达到了92.9%。这说明了该方法的有效性。 相似文献
12.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题. 相似文献
13.
音乐情感识别是音乐检索的一个重要组成部分.基于音乐声学特征分析,尝试提取代表音乐声学特性的时域、频域、倒谱域的各种特征,并利用支持向量机(support vector machine,简称SVM)算法对中文音频进行情感分类,以研究不同特征组合在音乐情感分类上的效果.通过对比各种不同特征组合的音乐情感识别效果,发现由4个时域特征、频谱、幅度谱和相位谱组成的音乐特征对中文音乐情感分类的效果良好. 相似文献
14.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为... 相似文献
15.
针对单一声学特征无法精准高效地辨识说话人身份的问题,提出了一种基于多特征I-Vector的说话人识别算法.该算法首先采集不同的声学特征并将其构成一个高维特征向量,然后通过主成分分析法有效地剔除高维特征向量的关联,确保各种特征之间正交化,最后采用概率线性判别分析进行建模和打分,并在一定程度上降低空间维度.在TIMIT语料库上利用Kaldi进行实验,算法运行结果表明,该算法较当前流行的基于I-Vector的单一梅尔频率倒谱系数和感知线性预测系数的特征系统在等错误率上分别提高了8.18%和1.71%,在模型训练时间上分别减少了60.4%和47.5%,具有更好的识别效果和效率. 相似文献
16.
提出了一种基于晚期正电位(LPP)特征的脑电情绪识别方法。以图片连续刺激被试诱发正、中和负性情绪。对三种情绪图片诱发的脑电进行方差分析,显示LPP段早期(300~600 ms)、中期(600~1 000 ms)、晚期(1 000~1 500 ms)在部分导联处具有极显著性差异(P0.01)。用SVM建模分类,在θ、α、β、γ波频段内LPP段晚期特征的情绪识别准确率比LPP段早期、中期特征的高,LPP段早期、中期、晚期特征的脑电情绪识别率超过60%,比时频特征的识别率高。表明晚期正电位特征识别脑电情绪种类更具可靠性。 相似文献
17.
线性判决分析(lineardiscriminateanalysis,LDA)作为一种经典线性工具已经被广泛地运用在各种模式识别问题中,为了降低参数估计误差对于LDA性能的影响,我们提出了一种改进的线性判决分析(modi-fiedlineardiscriminateanalysis,MLDA)算法,并运用到手写汉字识别中,使得识别率有所提高。在此基础上,针对大类别的汉字识别问题,提出了两级LDA的手写汉字识别方法,即MLDA LDA。在对GB2312—80的1034个汉字类别的350套手写样本的实验表明,这个两级LDA识别策略针识别率较最小距离分类器有着3.77%的提高,较LDA 最小距离分类方法有1.71%的提高,表明方法的有效性。 相似文献