首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
由于背景噪声、混响以及人声干扰等因素,远场语音识别任务一直充满挑战性。该文针对远场语音识别任务,提出基于注意力机制和多任务学习框架的长短时记忆递归神经网络(long short-term memory,LSTM)声学模型。模型中嵌入的注意力机制使其自动学习调整对扩展上下文特征输入的关注度,显著提升了模型对远场语音的建模能力。为进一步提高模型的鲁棒性,引入多任务学习框架,使其联合预测声学状态和干净特征。AMI数据集上的实验结果表明:与基线模型相比,引入注意力机制和多任务学习框架的LSTM模型获得了1.5%的绝对词错误率下降。  相似文献   

2.
随着人工智能行业的不断发展,智能语音问答技术逐步得到国内外学者的广泛关注和研究,但是语音识别方面仍然存在两个技术瓶颈,第一是语音识别系统,第二是根据识别的语音进行问题的回答。基于此,开展了基于深度学习的智能语音问答系统研究。首先介绍了基于隐马尔科夫模型的语音识别系统,然后研究了基于梅尔频率的语音信号特征提取技术,并建立了声学和语言模型,最后研究了基于GRU算法的问答匹配模型,并基于以上模型开发了智能语音问答系统。经实际实验验证分析,文章所提出的算法在语音识别和问答的准确度方面都相比传统算法具有很高的精确度,本算法具有较大的实用价值。  相似文献   

3.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

4.
将深度学习应用于行人重识别领域,嵌入多尺度注意力融合模块至神经网络中进行多尺度特征提取和表示,可有效提升注意力机制对深度学习网络的识别性能。提出了一种基于SE block的多尺度通道注意力融合模块,并结合ResNet50卷积神经网络提取特征;然后通过双向LSTM网络进一步提取特征序列上下文信息,在提高模型对图像重要特征的提取能力的同时,降低对图像冗余特征的关注度;最后使用级联难采样三元组损失函数和交叉熵损失函数共同训练网络模型,使样本能够在高维特征空间中实现聚类,进一步提升模型识别准确性。所提出算法在Market1501数据集和CUHK03数据集分别进行实验,并在同等条件下和其他注意力模块算法进行比较。为进一步验证各模块作用,对算法进行消融实验,以验证各模块的有效性,实验结果表明,所提出方法可有效应用于行人重识别  相似文献   

5.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤....  相似文献   

6.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

7.
语音情感识别是情感计算领域的一个重要分支,研究者们尝试从多种角度对其展开不懈研究。本文从可视化的角度出发,提出了基于信息可视化的情感识别方法,原始语音情感特征经过图表示映射为包含内部数据结构信息的新型情感图特征,在一定程度上促进了语音情感识别系统的性能提高。另外,还将信息可视化技术应用到情感识别结果的表达上,实现情感信息的生动描述和高效表达。在信息可视化技术和语音情感识别研究充分融合的基础上,构建了一个完整的语音情感信息可视化模型,作为系统实现的基础。  相似文献   

8.
为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。  相似文献   

9.
性别是语音情感识别中重要的影响因素之一.用机器学习方法和情感语音数据库对语音情感识别的性别差异进行探究,并进一步从声学特征的角度分析了性别影响因素.在两个英文情感数据集以及它们的融合数据集上进行实验,分别用三种分类器对男女语音情感进行识别,并用注意力机制挑选出在男女语音情感识别中的重要特征并比较其差异.结果表明,女性语音的情感识别率高于男性.梅尔倒谱系数、振幅微扰、频谱斜率等频谱特征在男女语音的情感识别中的重要性差异较大.  相似文献   

10.
张成  石磊  赵慧然 《科技资讯》2023,(10):253-256
维度语音情感识别是语音识别技术的重要研究方向,提取最能表达语音情感的特征码并构建具有模型泛化性和鲁棒性的声学模型是语音情感识别的重要研究内容。同时,其触及领域具备较强的多样性,心理学、模式识别以及认知科学等均属于其研究范围,而这些模块是其研究的重点,开展研究的目的主要是为了让机器具备人类情感,促使人机交互更加自然灵活。基于此,该文阐述了在情感心理学的研究基础上,分析情感语音数据库与数据标注,并对情感分类与回归加以探索,希望可以为维度语音情感识别提供新的思路。  相似文献   

11.
语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。  相似文献   

12.
传统的情感分析方法不能获取全局特征,以及否定词、转折词和程度副词的出现影响句子极性判断.在深度学习方法基础上提出了基于卷积神经网络和双向门控循环单元网络注意力机制的短文本情感分析方法.将情感积分引入卷积神经网络,利用情感词自身信息,通过双向门控循环网络模型获取全局特征,对影响句子极性的否定词、转折词和程度副词引入注意力机制实现对这类词的重点关注,提取影响句子极性的重要信息.实验结果表明,该模型与现有相关模型相比,有效提高情感分类的准确率.  相似文献   

13.
在双模态维度情感识别中,存在由于信息不全面而导致预测性能不高的缺陷,且使用决策级融合方法进行融合大多依赖支持向量回归算法,但该算法无法有效处理大样本情况。为了解决以上问题,在语音和文本模态的基础上增加动作捕捉(motion capture, Mocap)数据,并针对该多模态数据提出一种基于随机梯度下降(stochastic gradient descent, SGD)的决策级融合维度情感识别方法。结合多任务学习机制,利用不同的深度学习模型分别对语音、文本和Mocap特征进行训练,并基于决策级融合方法实现多模态维度情感识别。在IEMOCAP数据集上的实验结果表明,Mocap数据更有助于提高效价维的值,结合更多情感数据有助于提升维度情感识别的预测性能,基于SGD进行决策级融合得到的一致性相关系数均值高于其他回归算法。  相似文献   

14.
在源数据不充分或不平衡的情况下,深度学习方法在小样本集上难以取得令人满意的语音情感识别效果。因此,本研究构造了一种三层随机森林情感识别网络,在每一层都单独剥离易于区分的情感类别,并通过重要性评分方法,为每一层网络都构造一个识别特定类别的特征集,该特征集的每一个特征都依据贡献度大小得到赋权,以确保对分类贡献越多的特征因子对结果影响越大。本研究构建的多级情感识别网络,在小样本集语音情感识别的整体识别率上,较单层随机森林网络和支持向量机分别提高了5%和7%,较流行的深度学习方法卷积神经网络提高了12%。实验结果和理论分析表明:基于重要性评分的多级随机森林网络相较于其他方法,在源数据样本量较少和部分不平衡的情况下,有更高的识别准确率,具有语音情感识别方向的实际应用意义。  相似文献   

15.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

16.
大数据时代为深度学习在语音识别中的应用提供了良好的平台.本文介绍了用于语音识别的深度学习模型及用于语音识别的深度学习的学习过程.语音识别技术中特征提取、模式匹配和模型训练都离不开大量训练数据的积累和匹配,而数据的可靠和有效依赖于算法的可行性.在大数据基础上,深度学习用于语音识别大大提高了识别率.  相似文献   

17.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

18.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

19.
基于视频序列的面部表情识别问题主要有两个特点:空时性和显著性。近年来,许多研究人员利用卷积神经网络、循环神经网络、三维卷积神经网络等深度学习方法处理该问题的空时特性。但是,面部表情的显著性问题却往往被忽视。随着注意力机制在深度学习网络中的应用发展,其能够有效地解决各类任务中的显著性问题。该文将空时注意力机制应用到面部表情识别中,使得深度网络更多地关注空时特征中的显著性。具体地,该文将空间注意力模块嵌入到卷积网络中,以使空域特征更加关注对表情识别重要的区域,将时间注意力模块嵌入到门控循环单元(gated recurrent units,GRU)后,使得时域特征更加关注信息丰富的视频帧。在RECOLA情感数据库上的实验表明,与一般的深度模型相比,该文的深度空时注意力网络显著提高了面部表情识别的性能。  相似文献   

20.
为了更准确地将工作票推荐给具备解决问题能力的系统运维专家,对历史工作票数据进行研究提出基于深度学习的工作票专家推荐算法。首先根据专业熟练度水平和领域知识构建专家能力模型,然后设计卷积神经网络框架,在输入层中引入注意力来提高模型对工作票文本特征提取能力,并度量与专家模型的匹配度,实现以推荐质量为依据的专家推荐。在真实的数据集上进行了实验,结果表明与传统的基于机器学习的推荐方法相比,该方法的准确率提升了6%,引入注意力可以有效学习特征权重。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号