首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
甘宏 《江西科学》2022,(4):758-761
随着语音识别和自然语言处理技术的成熟,智能语音技术逐步落地到各行各业,但目前智能语音产品缺乏情感的交互,未实现真正的智能。为了提升智能语音产品的拟人性,学术界对语音情感识别的研究热度越来越高,但是多局限在使用传统特征工程以及通用深度学习模型上。在应用深度学习模型的基础上引入注意力机制对语音情感识别展开研究,选用语谱图作为输入特征,并对CNN输出的特征进行通道维度的注意力关注,分析注意力计算过程中不同池化方式对识别结果的影响,并引入残差,提升模型表现力,最终UA实现了2.83%的提升。  相似文献   

2.
对肺结节的形状特征、边缘特征和内部特征进行准确分类,能够辅助影像科医生的日常诊断工作,提高影像报告的书写效率.针对这一问题,提出一种基于长短时记忆(LSTM)结构与注意力结构的多任务分类模型.该模型通过注意力机制融合各个任务间的共享特征,提高当前任务的特征抽取效果.LSTM结构分类器能够有效地筛选任务间的共享特征,提高模型的信息传递效率.实验表明,相较于传统多任务结构,所提模型在公开数据集LIDC-IDRI上能够取得更好的多特征分类效果,辅助医生快捷地获取肺结节特征信息.  相似文献   

3.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

4.
声学特征提取是语音信号处理,如语音识别、语音唤醒、说话人识别等的核心技术之一.围绕说话人识别任务详细介绍了其主流声学特征,以及采用这些声学特征后所产生的问题和改进方法.同时,基于说话人区分向量(x-vector)说话人识别架构提出了一种双声学特征整合的方法,以改善识别性能,并在公开的VoxCeleb1数据集上对比几种常用声学特征在x-vector框架下的说话人识别结果,进一步验证了所提出的双特征整合方法的有效性.  相似文献   

5.
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.  相似文献   

6.
序列标注任务是自然语言处理领域的重要问题,包括命名实体识别、词性标注、意见抽取等具有重要应用价值的子任务。目前,长短期记忆网络-条件随机场模型(LSTM-CRF)作为序列标注任务的主流框架,虽然取得了很好的性能并被广泛使用,但仍存在局部依赖性以及受限于序列化特征学习的缺点。为了同步建模句子中每个词的局部上下文语义与全局语义,并将两部分语义进行有效融合,提出基于注意力机制的特征融合序列标注模型。具体地,本模型利用多头注意力机制建模句子中任意两个词之间的语义关系,得到每个词应关注的全局语义。考虑到LSTM学习的局部上下文信息和注意力机制学习的全局语义具有互补性,进一步设计了三种特征融合方法将两部分语义深度融合以得到更丰富的语义依赖信息。为验证模型的有效性,在四个数据集上进行了大量的实验,实验结果表明本模型达到较优的性能。  相似文献   

7.
状态监测与故障诊断是保证机械设备安全稳定运行的必要手段.本文提出一种基于注意力机制双向LSTM网络(ABiLSTM)的深度学习框架用于机械设备智能故障诊断.首先,将传感器采集的设备原始数据进行预处理,并划分为训练样本集与测试样本集;其次,训练多个不同尺度的双向LSTM网络对原始时域信号进行特征提取,得到设备故障多尺度特征;再次,通过引入注意力机制,对不同双向LSTM网络提取特征的权重参数进行优化,筛选保留目标特征,滤除冗杂特征,以实现精准提取有效故障特征;最后,在输出端利用Softmax分类器输出故障分类结果.通过利用发动机气缸振动实验数据和凯斯西储大学滚动轴承实验数据进行故障诊断实验,故障识别准确率均达到99%以上.实验结果表明,ABiLSTM模型可以实现对原始时域信号的多尺度特征提取和故障诊断,通过与深度卷积网络(CNN)、深度去噪自编码器(DAE)和支持向量机(SVM)等方法进行对比,ABiLSTM模型的故障识别性能优于各类常见模型.另外,通过利用凯斯西储大学滚动轴承在不同工况条件下的数据,对ABiLSTM模型进行泛化性能实验,变工况样本的故障识别准确率仍然能够达到95%以上.  相似文献   

8.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

9.
性别是语音情感识别中重要的影响因素之一.用机器学习方法和情感语音数据库对语音情感识别的性别差异进行探究,并进一步从声学特征的角度分析了性别影响因素.在两个英文情感数据集以及它们的融合数据集上进行实验,分别用三种分类器对男女语音情感进行识别,并用注意力机制挑选出在男女语音情感识别中的重要特征并比较其差异.结果表明,女性语音的情感识别率高于男性.梅尔倒谱系数、振幅微扰、频谱斜率等频谱特征在男女语音的情感识别中的重要性差异较大.  相似文献   

10.
目前通过深度学习方法进行语言模型预训练是情感分析的主要方式,XLNet模型的提出解决了BERT模型上下游任务不一致的问题.在XLNet基础上增加LSTM网络层和Attention机制,提出XLNet-LSTM-Att情感分析优化模型,通过XLNet预训练模型获取包含上下文语义信息的特征向量,接着利用LSTM提取上下文相关特征,最后引入注意力机制根据特征重要程度赋予不同权重,再进行文本情感倾向性分析.仿真实验中将XLNet-LSTM-Att模型与5种常用的情感分析模型进行对比,结果表明提出的模型优于其他测试模型,模型的精准率达到89.29%.  相似文献   

11.
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。  相似文献   

12.
提出了基于残差网络和注意力机制的LRAM(LSTM with ResNet and attention model)模型,在模型中引入残差模块(ResNet),加快了网络的收敛速度,降低了网络训练难度;引入注意力机制(AM),实现了不同序列对当前文本识别的权重分配,提高文本识别的准确率.通过在Synth90K,Street View Text和ICDAR等数据集测试结果,与已存在的模型相比,LRAM性能超过现存其他网络模型.   相似文献   

13.
将深度学习应用于行人重识别领域,嵌入多尺度注意力融合模块至神经网络中进行多尺度特征提取和表示,可有效提升注意力机制对深度学习网络的识别性能。提出了一种基于SE block的多尺度通道注意力融合模块,并结合ResNet50卷积神经网络提取特征;然后通过双向LSTM网络进一步提取特征序列上下文信息,在提高模型对图像重要特征的提取能力的同时,降低对图像冗余特征的关注度;最后使用级联难采样三元组损失函数和交叉熵损失函数共同训练网络模型,使样本能够在高维特征空间中实现聚类,进一步提升模型识别准确性。所提出算法在Market1501数据集和CUHK03数据集分别进行实验,并在同等条件下和其他注意力模块算法进行比较。为进一步验证各模块作用,对算法进行消融实验,以验证各模块的有效性,实验结果表明,所提出方法可有效应用于行人重识别  相似文献   

14.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

15.
SAR-BagNet模型是一种应用于合成孔径雷达(SAR)图像识别的可解释深度学习模型。为了使SAR-BagNet模型在具有可解释性的同时具有较高的识别精度,以SAR-BagNet模型为基础,在模型框架中加入了空间注意力和坐标注意力机制,并在MSTAR实测数据集上进行了实验。实验结果表明,空间注意力和坐标注意力机制增强了SAR-BagNet模型的全局信息获取能力,能够在不降低其可解释性的基础上,有效提高模型的识别精度和决策合理性。  相似文献   

16.
在采取远程监督方法构建大规模的关系抽取语料库时,一般会不可避免地引入大量冗余和噪声,从而影响关系抽取的效果。为此,文章提出基于双向长短期记忆网络(LSTM)和结构化自注意力机制的方法来缓解训练数据的噪声问题。结合中文语言的特点,在输入层采用结合义原训练的词向量作为输入,通过双向LSTM来抽取句子的语义特征,利用结构化的自注意力机制来学习面对实体对的上下文表示,通过多实例选择的方法来选择有效的实例,从而尽量避免噪声数据的影响。实验结果表明,文章提出的模型能有效提高实体关系抽取的准确率与召回率,其F1值比加上了注意力机制的CNN与双向LSTM分别提升了4.3%和1.2%。  相似文献   

17.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

18.
随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。  相似文献   

19.
在虚假信息识别任务中,面对图文结合的虚假内容,基于单模态的模型难以进行准确识别.社交媒体中的虚假信息为吸引关注和迅速传播的目的,会使用夸张的词汇煽动读者的情绪.如何将情感特征引入多模态虚假信息检测模型进行多特征融合,并准确地识别虚假信息是一个挑战.为此,本文提出了基于注意力机制多特征融合的虚假信息检测方法(att-MFNN).该模型中先将文本特征和情感特征基于注意力机制融合,再与视觉特征组成多模态特征送入虚假信息识别器和事件分类器中.通过引入事件分类器学习不同事件中的共同特征,提高新事件的识别性能.att-MFNN在微博和推特(Twitter)数据集的准确率达到了89.22%和87.51%,并且F1、准确率、召回率指标均优于现有的模型.  相似文献   

20.
为解决单一的卷积神经网络(CNN)缺乏利用时序信息与单一循环神经网络(RNN)对局部信息把握不全问题,提出了融合注意力机制与时空网络的深度学习模型(CLA-net)的人体行为识别方法。首先,通过CNN的强学习能力提取局部特征;其次,利用长短时记忆网络(LSTM)提取时序信息;再次,运用注意力机制获取并优化最重要的特征;最后使用softmax分类器对识别结果进行分类。仿真实验结果表明,CLA-net模型在UCI HAR和DaLiAc数据集上的准确率分别达到95.35%、99.43%,F1值分别达到95.35%、99.43%,均优于对比实验模型,有效提高了识别精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号