首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

2.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

3.
针对现有多模态情感分析模型对模态交互问题的忽视导致其性能受限的问题,提出一种基于模态时序列耦合与交互式多头注意力的多模态情感分析模型(MC-CA)。利用仿射变换耦合模态的情感信息和时序信息,使用交互式多头注意力机制获取模态间的交互信息,利用多通道情感预测方法综合全局与局部信息实现多模态协同训练。在多个公开数据集上的实验结果表明,该模型能够建立多模态数据之间的交互,在多模态情感分析任务中取得优异的性能。  相似文献   

4.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

5.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

6.
针对传统情感分析模型将单词或词语作为单一嵌入,而忽略句子之间依存信息和位置信息的问题,提出基于双向门控机制和层次注意力的方面级情感分析模型(Based on Bi-GRU and Hierarchical Attention,BGHA)。首先,将文本数据转成词向量再加入位置编码信息,得到包含位置和语义信息的词向量后通过双向门控机制提取上下文特征;接着,分别在单词注意力层和句子注意力层用注意力机制对特征分配权重,突出重点词和重点句信息;最后,结合给定的方面信息选择性提取与其较匹配的情感特征。在SemEval 2014、SemEval 2016和Twitter短文本评论数据集上的实验结果表示,BGHA模型的准确率对比其他模型都有不同程度的提高,证明了模型的有效性。  相似文献   

7.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

8.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

9.
多模态情感分析是自然语言处理领域的重要任务,模态融合是其核心问题。以往的研究没有区分各个模态在情感分析中的主次地位,没有考虑到不同模态之间的质量和性能差距,平等地对待各个模态。现有研究表明文本模态往往在情感分析中占据主导地位,但非文本模态包含识别正确情感必不可少的关键特征信息。因此,本文提出一种以文本模态为中心的模态融合策略,通过带有注意力机制的编解码器网络区分不同模态之间的共有语义和私有语义,利用非文本模态相对于文本模态的2种语义增强补充文本特征,实现多模态的联合鲁棒表示,并最终实现情感预测。在CMU-MOSI和CMU-MOSEI视频情感分析数据集上的实验显示,本方法的准确率分别达到87.3%和86.2%,优于许多现有的先进方法。  相似文献   

10.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法.  相似文献   

11.
目前基于网络的垃圾用户检测方法只考虑了简单社会关系,缺乏对更多复杂社会语义关系的利用,难以达到最优性能.针对这一挑战,提出一种基于层次注意力机制的垃圾用户检测模型(HAM-SD).模型首先使用异质信息网络对社交媒体进行建模,挖掘丰富的语义与结构信息,接着利用节点级注意力层聚合元路径邻居增强节点表示,同时利用自适应层级聚合模块选择不同层级特征提升表征能力,然后通过语义级注意力层融合不同元路径下的节点表示,最后带入分类检测模块实现垃圾用户检测.在公开数据集上的实验结果表明该模型能够有效检测垃圾用户,并在不平衡数据分布时保持较强的稳定性.  相似文献   

12.
现有群组推荐方法在偏好融合时大多采用预定义策略,这种静态方法忽略了群组间用户的交互,难以对复杂的决策过程进行建模,从而影响推荐效果。针对该问题,提出了一种基于注意力机制的群组推荐方法,使用注意力机制获取群组中每个用户对其他用户的注意力权重,为群组选出一个决策者,以此来模拟群组中用户的交互,再根据用户的加权偏好为群组推荐项目。通过在CAMRa2011和MovieLens1M数据集上与基线方法的对比可知,该方法在命中率和归一化折扣累计增益方面都有较大提高。  相似文献   

13.
基于视觉注意机制的小目标预检测特性   总被引:1,自引:0,他引:1  
针对一种使用了离散非线性采样的视觉注意机制模型,对其应用在小目标预检测上的检测概率进行了研究和分析.在一定的假设条件下,从理论上推导出了模型中影响小目标预检测概率的各个因素,包括目标大小、目标所在采样节点的大小、输入图像信噪比和目标均匀性参数等.由于采用了非线性的采样模型,注视点的转移将带来不同图像区域空间分辨率的变化,从而不能获得总的检测概率与上述各参数的有意义的关系,通过实验分析了这些因素在小目标预检测中对检测概率的具体影响.  相似文献   

14.
微博作为电子口碑的重要载体,极大影响了消费者的购买决策和商家的产品销售.为此,以新浪微博为平台,研究从微博中挖掘情感信息并利用这些信息对产品销售进行预测的方法.分析影响微博评论的因素,基于已构建的情感本体,建立微博中情感计算方法.然后在传统自回归模型的基础上融入情感因素,提出自回归情感预测模型用于产品销量的预测.对电影数据集进行了广泛地实验,分析参数选择,并与其它预测模型进行比较,实验证实我们提出的方法的有效性.  相似文献   

15.
针对行人重识别中因遮挡、姿态变化使模型特征无法充分表达行人信息的问题,提出了基于注意力机制与多尺度特征融合的行人重识别方法.首先使用改进的骨干网络R-ResNet50提取图像特征;其次,抽取网络不同尺度的特征层嵌入注意力机制DANet,使模型更关注于重点信息;最后,对提取出的关键特征进行多尺度特征融合,实现特征间的优势...  相似文献   

16.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

17.
通过对新闻类文体的结构分析,将新闻文体按段落划分,采用一种基于情感词典和语义规则相结合的情感关键句抽取方法,对段落内的句子进行情感分析。综合考虑情感、转折、否定、程度和归总等词语信息构建情感词典,根据规则切割新闻文本,将新闻划分为意群、句子、段落以及篇章,通过制定的规则计算情感关键句倾向值,最终获得段落以及整个篇章的情感倾向值,从而得出新闻的情感倾向。与情感词典和SVM情感分类方法的实验结果对比表明,本文方法在对新闻文本进行倾向判别时效果较好,方法具可行性。  相似文献   

18.
基于核典型相关分析的姿态人耳、人脸多模态识别   总被引:1,自引:0,他引:1  
选用在生理位置上具有一定关联性的人耳和人脸作为研究对象,针对剧烈的姿态变化会造成融合信息大量缺损的问题,提出了一种基于核典型相关分析的多模态识别方法,利用标准化和中心化两种方法对原始数据集进行预处理,并用最近邻方法进行分类识别. 实验结果表明,核典型相关分析方法可以有效地克服剧烈的姿态变化对人耳和人脸识别的影响,且与单生物特征相比,识别率显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号