首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

2.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

3.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。  相似文献   

4.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

5.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法.  相似文献   

6.
针对PM2.5浓度预测模型效果不稳定、泛化能力差的问题,以循环神经网络和注意力机制为基础,提出了二向注意力循环神经网络(TDA RNN)。首先,TDA-RNN模型通过注意力机制获取输入数据的时序注意力和类别注意力,并将其进行融合;然后通过特征编码器对融合后的数据进行编码,获得中间特征;最后将中间特征与PM2.5浓度的历史信息融合,并通过特征解码器获取预测值。对北京地区的PM2.5浓度进行了预测。结果表明,相比前向型神经网络、长短期记忆神经网络、门控循环单元模型和滑动平均模型,TDA-RNN模型预测精度更高;在抗干扰测试中,当输入数据存在无关因素时,TDA RNN模型的预测精度出现轻微下降,但仍高于其他模型。该二向注意力循环神经网络特征提取能力强,预测精度高,同时可适用于其他场景的多变量时间序列预测。  相似文献   

7.
严松  张蕾 《科学技术与工程》2024,24(17):7239-7248
针对机器人抓取检测任务中对未知物体抓取检测精度低的问题,本文提出了一种多模态深度神经抓取检测模型。首先,在RGB和深度两个通道中引入残差模块以进一步提升网络的特征提取能力。接着,引入多模态特征融合模块进行特征融合。最终通过全连接层回归融合特征以得到最佳抓取检测结果。实验结果表明,在Cornell抓取数据集上,本文方法的图像拆分检测精度达到95.7%,对象拆分检测精度达到94.6%。此外,本文还通过消融实验证明了引入残差模块可以提高网络抓取检测性能。  相似文献   

8.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

9.
传统机器学习方法在进行机械钻速预测时,受复杂特征提取和人为认知局限性的影响,难以满足现场预测精度要求。基于此,提出一种特征提取和回归预测相结合的机械钻速预测方法。首先,采用箱型图和独热编码对钻井实测数据进行预处理,清除异常数据并将离散特征连续化。其次,应用卷积神经网络(convolutional neural network, CNN)挖掘数据特征,并在网络中引入通道注意力机制(squeeze-and-excitation network, SENet),实现对CNN特征通道重要性程度的合理分配,建立SE-CNN机械钻速预测模型。最后,将SE-CNN模型与CNN模型进行对比分析,结果表明:SE-CNN模型的拟合优度提高了2.1%,平均绝对误差和均方根误差分别降低了1.1%和1.5%。SE-CNN模型具有较高的预测精度,可以用于现场机械钻速预测,为钻井提速提供科学参考。  相似文献   

10.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

11.
传统的情感分析方法不能获取全局特征,以及否定词、转折词和程度副词的出现影响句子极性判断.在深度学习方法基础上提出了基于卷积神经网络和双向门控循环单元网络注意力机制的短文本情感分析方法.将情感积分引入卷积神经网络,利用情感词自身信息,通过双向门控循环网络模型获取全局特征,对影响句子极性的否定词、转折词和程度副词引入注意力...  相似文献   

12.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

13.
针对网络流量具有强烈的非线性和不确定性导致传统统计方式或者机器学习方法难以准确预测的问题,为进一步提升网络流量预测精度,在传统时序序列预测模型的基础上设计实现了一种局部上下文信息增强的注意力机制,通过卷积计算将输入转换为注意力机制中的Query和Key,从微观角度对时间序列进行解释,提高了预测模型的局部感知能力。进而将提出的注意力机制分别与长短期记忆人工神经网络和门控循环单元两个时序预测模型相结合并将结合后的模型用于某运营商提供的两个不同网络流量数据集进行网络设备流量预测。实验结果表明基于局部上下文信息增强注意力机制的预测模型具有更好的预测效果。  相似文献   

14.
盾构荷载作为盾构的主要性能指标,准确的荷载预测对于保证盾构安全高效工作和周边环境稳定具有重要意义.鉴于传统预测方法精度差的局限性,本研究以数据的高维度特征和时序特征为切入点,提出一种结合卷积神经网络、双向长短期记忆神经网络和注意力机制的混合模型(CNN-BiLSTM-Multiattention, CBM),对盾构荷载进行精准预测.该模型不仅可以提取数据的高维度特征和时序特征,还能突出高维度特征的重要性和关键时间节点信息.通过实验证明了相较于4种现有的模型,本文所提出的模型在3种评价指标上均优于其他模型,对推力和扭矩预测的准确率达到94.2%和96.2%.  相似文献   

15.
针对现有多模态情感分析模型对模态交互问题的忽视导致其性能受限的问题,提出一种基于模态时序列耦合与交互式多头注意力的多模态情感分析模型(MC-CA)。利用仿射变换耦合模态的情感信息和时序信息,使用交互式多头注意力机制获取模态间的交互信息,利用多通道情感预测方法综合全局与局部信息实现多模态协同训练。在多个公开数据集上的实验结果表明,该模型能够建立多模态数据之间的交互,在多模态情感分析任务中取得优异的性能。  相似文献   

16.
为了解决刑期预测任务准确率较差的问题,提出一种基于多通道分层注意力循环神经网络的司法案件刑期预测模型.该模型对传统的循环神经网络模型进行了改进,引入了BERT词嵌入、多通道模式和分层注意力机制,将刑期预测转化为文本分类问题.模型采用分层的双向循环神经网络对案件文本进行建模,并通过分层注意力机制在词语级和句子级两个层面捕获不同词语和句子的重要性,最终生成有效表征案件文本的多通道嵌入向量.实验结果表明:对比现有的基于深度学习的刑期预测模型,本文提出的模型具有更高的预测性能.  相似文献   

17.
18.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。  相似文献   

19.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。  相似文献   

20.
热电联产机组的锅炉负荷准确预测对电厂生产管理及调度有直接作用.基于注意力机制和深度卷积-长短期记忆网络原理,提出一种新的热电联产长期负荷预测模型,该模型以锅炉出口蒸汽流量(负荷)历史数据和多维负荷影响因素为输入,对负荷进行长期预测.利用Pearson相关系数判定对原始数据进行筛选;将处理后的数据经卷积层进行特征提取和进一步降维,通过长短期记忆层进行拟合,并采取注意力机制对权值进行优化,实现对负荷的精准预测.以浙江桐乡电厂实测数据为例进行验证,结果表明所提方法的平均绝对百分比误差小于1%,能够实现锅炉负荷的精准预测,智能算法在热电联产领域的应用具有一定的借鉴意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号