首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。  相似文献   

2.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。  相似文献   

3.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

4.
高分辨率遥感图像场景分类广泛应用于土地监测、环境保护及城市规划等诸多领域.现有场景分类方法不能很好地结合局部纹理信息和全局语义信息,同时各通道特征之间的关系没有得到有效挖掘.因此,本文提出了一种基于多通道自注意力网络的遥感图像场景分类模型.通过卷积网络提取遥感图像的多尺度特征;随后采用特征融合单元建立多尺度特征间的局部-全局关系,基于多头自注意力机制的Inter-Channel Transformer在通道维度对融合后的特征建模,并推导特征在通道间的关系,进一步扩大全局感受野,以捕捉其语义结构信息,有效提高了网络的分类精度.在数据集AISC和SIRI-WHU上,本文所提算法的整体分类准确率(OA)分别为95.70%和94.00%,超过了当前最新的研究算法,证明了所提模型在高分辨率遥感图像场景分类任务中的有效性.  相似文献   

5.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

6.
在新服装产品销售预测任务中,由于缺乏历史销售数据,通常需要充分利用其他模态的数据作为补充。然而,多模态服装数据通常具有冗余性和异构性。为解决这些问题,提出一种包括三个主要元素的层次化多模态注意力循环神经网络(hierarchical multi-modal attention based recurrent neural network, HMA-RNN)。层次化结构将高层语义信息与低层语义信息分离,以避免信息冗余。在模态融合阶段引入多模态注意力机制(multi-modal attention, MMA)以减轻固有的数据不对齐问题。采用共享注意力机制构建跨多模态数据的依赖关系。在Visuelle 2.0数据集上的试验结果表明,所提出的方法加权平均百分比误差(weighted average percentage error, WAPE)为72.07,平均绝对误差(mean absolute error, MAE)为0.80,明显优于现有的方法,表明了该研究所提出的方法的有效性。  相似文献   

7.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

8.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

9.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

10.
单词级别的浅层卷积神经网络(CNN)模型在文本分类任务上取得了良好的表现.然而,浅层CNN模型由于无法捕捉长距离依赖关系,影响了模型在文本分类任务上的效果.简单地加深模型层数并不能提升模型的效果.本文提出一种新的单词级别的文本分类模型Word-CNN-Att,该模型使用CNN捕捉局部特征和位置信息,利用自注意力机制捕捉长距离依赖.在AGNews、DBPedia、Yelp Review Polarity、Yelp Review Full、Yahoo! Answers等5个公开的数据集上,Word-CNN-Att比单词级别的浅层CNN模型的准确率分别提高了0.9%、0.2%、0.5%、2.1%、2.0%.  相似文献   

11.
近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法.  相似文献   

12.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。  相似文献   

13.
针对传统基于内容的服装分类对图像特征有较高的要求,当服装款式较多时,其准确率难以满足服装分类应用需求的问题,提出一种基于深度学习方法的平行自注意力分类网络.该网络在ResNet50的基础上增加了平行自注意力补偿分支,该分支能提升服装分类任务中的特征提取质量,逐步补充深层网络缺失的浅层细节信息.在数据集DeepFashion上进行了对比实验,实验结果证明了该方法的有效性.  相似文献   

14.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态...  相似文献   

15.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。  相似文献   

16.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

17.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法.  相似文献   

18.
针对基于注意力机制的模型在方面级情感分类任务中忽略了单词词性信息的问题,提出一种融入词性自注意力机制的方面级情感分类方法.该方法首先基于自然语言处理词性标注工具获得词性标注序列,并随机初始化一个词性嵌入矩阵得到词性嵌入向量;然后用自注意力机制学习单词之间的句法依赖关系;最后计算出每个单词的情感分数,利用词情感的结合表示特定方面的情感极性.实验结果表明,在5个公共数据集上,该方法相比效果最好的基线模型,在准确率和宏观F1分数上分别提升2%和4.83%.表明融入词性信息的注意力机制模型在方面级情感分类任务中性能更好.  相似文献   

19.
知识蒸馏能提高神经网络的泛化能力,可解决遥感图像场景分类时标注数据不足的问题。遥感图像存在的类间高相似性会导致中间知识特征丢失,针对该问题,本文提出一种基于自蒸馏级联注意力机制的特征提取方法(SDCASA)。首先构造权值共享的教师、学生网络;然后使用级联注意力模块精细化深层教师网络所提取到的特征,同时保留被浅层神经网络过滤的中间边缘信息;再利用精细化之后的特征指导学生网络学习;最后在下游训练一个线性分类器完成特征分类。在3个公开数据集AID、MLRSNet、EuroSAT上使用20%和50%的样本训练,分类准确率分别达到85.17%、90.10%、 91.13%和85.50%、92.13%、91.17%。此方法能有效提高遥感图像场景分类准确率,性能优于主流自监督图像分类方法 SimSiam、SwAV、MoCov2、Deepcluster,具有良好的应用价值。  相似文献   

20.
方面级情感分析是一项细粒度的情感分类任务,目前常用的研究方法是使用神经网络模型结合注意力机制的模式,使用注意力机制挖掘方面词和上下文之间的关系.但是传统的注意力机制在训练时,往往会倾向于关注出现频率较高的情感词,给其分配较高的注意力权重值,对于低频情感词却关注不足.为了解决上述问题,提出了一种使用改进的自注意力机制的方...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号