首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

2.
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。  相似文献   

3.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

4.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别...  相似文献   

5.
"文本为主"的多模态特征融合的新闻视频分类算法   总被引:4,自引:0,他引:4  
视频分类算法通过融合多模态特征提高分类性能.大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异.该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式.该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充.对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳.  相似文献   

6.
多模态情感分析是自然语言处理领域的重要任务,模态融合是其核心问题。以往的研究没有区分各个模态在情感分析中的主次地位,没有考虑到不同模态之间的质量和性能差距,平等地对待各个模态。现有研究表明文本模态往往在情感分析中占据主导地位,但非文本模态包含识别正确情感必不可少的关键特征信息。因此,本文提出一种以文本模态为中心的模态融合策略,通过带有注意力机制的编解码器网络区分不同模态之间的共有语义和私有语义,利用非文本模态相对于文本模态的2种语义增强补充文本特征,实现多模态的联合鲁棒表示,并最终实现情感预测。在CMU-MOSI和CMU-MOSEI视频情感分析数据集上的实验显示,本方法的准确率分别达到87.3%和86.2%,优于许多现有的先进方法。  相似文献   

7.
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。  相似文献   

8.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

9.
智慧园区的建设推动着企业与城市的发展,传统的园区管理方式已不再适用于产业融合创新的智慧园区。以曹家滩园区为例,设计智慧园区平台总体框架,针对园区中身份识别存在识别环境差、效率低、准确率低等问题,提出一种基于多模态多核学习的身份识别算法。所提算法将视频数据中的数据分为图像、音频,并采集个人信息的文本,并将三种模态的信息输入同一样本空间中,通过引入间隔约束的多核学习算法,保留不同模态的差异性和相似性,并进行特征融合与决策融合,最终采用分类器与评分机制输出身份识别结果。通过公开的视频数据集与曹家滩园区数据集进行实验,实验结果表明本文所提算法最高准确率达到97.2%,与传统算法相比有较大优势。  相似文献   

10.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

11.
针对基于深度学习的图像检索提取特征往往包含了复杂的背景噪声,导致图像检索的精确率并不高的问题,提出一种特征图融合与显著性检测的方法.首先,训练用于分类的深度卷积神经网络模型.然后,并将图像卷积之后的特征图谱进行融合,得到图像的显著性区域.最后,通过计算图像显著性特征的余弦距离来进行检索.实验结果证明:相比目前主流的方法,文中方法能够有效提高检测精度,且鲁棒性较高.  相似文献   

12.
利用残差网络(ResNet)50,结合卷积块注意力模块(CBAM)机制,提出了一种基于CBAM-ResNet50的民国纸币图像检索技术,提升了对相似纸币的检索能力.设计并实现了基于Windows和Ubuntu系统环境下的民国纸币图像检索系统,并搭建了基于Flask的Web应用服务.所提取的民国纸币图像特征具有更强的辨识度,大幅提高了检索速度,在图形处理器(GPU)上可达毫秒级.使用缩略图搜索民国纸币图片,对相似度排名第1的图像的检索准确率可以达76.3%,相似度排名前6的图像检索准确率可以达92.5%.  相似文献   

13.
针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征子网的部分隐层权重;最后,连接线性分类器并与标签信息进行判别训练。在公开数据集上采用平均精度(mAP)作为评价指标进行实验。结果表明:SPCMR方法能充分利用跨模态间的语义信息,有效提升图文检索的精度。  相似文献   

14.
针对现有智能手机用户身份认证方法的不足,提出了一种自适配权重特征融合的持续身份认证方法。设计了一种卷积神经网络,对手机内置传感器(加速度计、陀螺仪、磁力计)获取的用户行为信息数据进行深度特征提取及融合。通过网络中3个子网络流分别提取3种传感器特征,在特征融合层加权融合,各特征的权值会在网络学习过程中根据不同特征的贡献度实现自适应分配。融合特征经过特征选择之后,使用单分类支持向量机进行用户分类认证。实验结果表明:该方法对不同用户身份认证获得的等错误率为1.20%,与现有其他认证方法相比具有更好的认证准确性。  相似文献   

15.
作为一种跨摄像头的检索任务,行人重识别会受到不同相机视角造成的图像样式变化的影响。近年来,许多算法通过神经网络直接从原始输入图片中学习相应特征,虽然这些特征能够很好地描述全局行人,但忽略了许多局部细节信息,在复杂的场景下容易出现误识别。针对此问题,研究了一种基于多任务学习的新的特征表示方法,采用成对输入的孪生网络结构,将局部最大出现特征(local maximal occurrence,LOMO)和深层特征一起送入网络并映射到单一的特征空间中进行训练,形成一种新的网络模型TDFN(traditional and deep features fusion network)。利用神经网络自我学习特性,联合多个任务的损失函数更新网络,使得深层特征学习到更多与手工局部特征互补的细节信息。实验表明,新特征的平均精度mAP和Rank-1精度都优于直接从孪生网络提取的全局描述子。  相似文献   

16.
针对传统图像分类识别方法采用单一传感器获得图像存在的局限和不足,提出了一种基于红外和可见光融合的分类算法。首先分别对红外图像和可见光图像提取密集型尺度不变特征变换(D-SIFT),然后采用无字典模型(CLM)变换,并利用空间金字塔匹配(SPM)进行精细划分,最后用混合核支持向量机(SVM-CK)方式将红外和可见光在特征级融合并分类。在VAIS和RGB-NIR两个数据库上对该方法进行验证,融合后分类精度分别比单一图像源均有较大提高;与BoVW方法比较,精度分别提高了4.7%和12.1%。证明多数据源融合的方法综合了红外和可见光各自成像的优势,使获得的特征信息更完善,分类效果显著高于单一数据源的分类结果。  相似文献   

17.
一种新的多特征融合图像检索方法   总被引:1,自引:1,他引:0  
为解决图像检索中单一特征检索性能不佳、多特征融合耗时的问题,提出了一种新的融合颜色特征和形状特征的图像检索方法。检索过程分为两个阶段:首先对图像进行圆环分块,提取图像整体和各圆环子块颜色特征向量,以特征向量间距离大小为准则对图像库分类;然后在类内提取图像的ART形状描述符作为形状特征进行相似性度量以实现检索。形状特征提取只在某一类内进行,减小了运算量,同时弥补了颜色特征对图像空间信息丢失的不足,提高了检索准确率。仿真实验取得了较好的检索效果。  相似文献   

18.
遥感图像中典型目标的检测是当前图像处理领域的研究热点,飞机在战场监视、航空管制和交通运输等领域发挥着重要作用。为了提高遥感图像中飞机检测的正确率,提出了一种基于多特征融合的遥感飞机检测方法,将深层特征经过上采样操作后与浅层特征进行融合,解决了遥感飞机目标较小造成的检测困难的问题。首先,对于锚框尺寸和个数由人为确定而造成目标位置检测不准的问题,采用K-均值聚类(K-means)算法对数据集的目标框大小进行聚类分析并获得适合飞机遥感图像的锚框(anchor boxes)个数以及宽高维度;其次,采用上采样的方法扩大感受野,以提高网络对小目标的检测准确率。采用多尺度融合的卷积神经网络,以适应不同尺度目标的检测,最终提出一种基于最优区域生成的深度多尺度融合遥感飞机检测方法。仿真结果表明:与典型的飞机检测方法相比,所提方法在测试集上取得了更高的的检测精度。  相似文献   

19.
金融市场中股票价格的变动受到多方面因素的影响,如何更好地利用更多的大数据为投资决策进行服务始终是各方研究的重点。本研究以沪深300指数为研究对象,采用图像化处理的方式融合财经新闻、市场交易数据和技术指标等多源异构数据,建立了卷积神经网络模型,对未来不同时间长度的股指图像数据进行涨跌预测。通过对模型结构的稳健性检验,使用60天融合新闻情绪、技术指标与股价三类图片的三层图片预测模型,预测股指未来5天后的涨跌样本外准确率可达65.2%。融合多源数据后的图片数据能够丰富单一的股价数据,从而提升了模型的预测准确率。通过与传统的线形模型、LSTM循环神经网络模型及其他经典卷积神经网络模型比较,本研究构建的预测模型在样本外预测效果最佳,表明本研究构建的基于多源异构数据的图片预测模型在股指预测中具有可行性和一定优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号