期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王旭阳王常瑞张金峰邢梦怡《广西师范大学学报(自然科学版)》2024,(2):84-93

挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。相似文献

2.

MC-CA:基于模态时序列耦合与交互式多头注意力的多模态情感分析

张涛郭青冰李祖贺邓璐娟《重庆邮电大学学报(自然科学版)》2023,35(4):680-687

针对现有多模态情感分析模型对模态交互问题的忽视导致其性能受限的问题,提出一种基于模态时序列耦合与交互式多头注意力的多模态情感分析模型（MC-CA）。利用仿射变换耦合模态的情感信息和时序信息,使用交互式多头注意力机制获取模态间的交互信息,利用多通道情感预测方法综合全局与局部信息实现多模态协同训练。在多个公开数据集上的实验结果表明,该模型能够建立多模态数据之间的交互,在多模态情感分析任务中取得优异的性能。相似文献

3.

中文多模态知识库构建

晁睿张坤丽王佳佳胡斌张维聪韩英杰昝红英《广西师范大学学报(自然科学版)》2022,40(3):31-39

多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。相似文献

4.

基于注意力机制的分层次交互融合多模态情感分析

李文雪甘臣权《重庆邮电大学学报(自然科学版)》2023,35(1):176-184

针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。相似文献

5.

多模态语义协同交互的图文联合命名实体识别方法

下载免费PDF全文

钟维幸王海荣王栋车淼《广西科学》2022,29(4):681-690

针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。相似文献

6.

基于有向图模型的多模态新闻图像检索研究

相子喜吕学强张凯《科学技术与工程》2016,16(3)

不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。相似文献

7.

基于注意力模型的多模态特征融合雷达知识推荐

李稳安陈柳柳陈实《重庆大学学报(自然科学版)》2021,44(7):34-42

为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性. 相似文献

8.

利用特征距离信息引导决策融合的多模态生物特征识别方法

周晨怡黄靖杨丰刘娅琴《科学技术与工程》2020,20(10):4036-4042

传统的决策层融合作为识别系统最末端的融合层次,具有信息量不足的缺点,对于各模态分类性能差异较大的系统,识别率低且可靠性差。提出了一种基于特征距离信息的决策层融合方法,应用于包含虹膜、手掌静脉和手指静脉的多模态生物特征识别系统。以置信度作为权重,通过权重来探索不同模态生物特征识别的性能差异,实现了有效特征信息的提取,并且提高了系统的抗干扰能力。该方法充分考虑了权重因子与特征距离信息和模态分类性能参数之间的复杂关系,将模态的决策偏好通过置信度转化为定量表征,不仅使各模态权重因子的求解更具科学性,而且提高了识别系统在复杂情境下的自适应能力。实验结果表明,该融合方法的识别精度与抗干扰能力优于其他决策层融合算法。相似文献

9.

基于情感信息辅助的多模态情绪识别

吴良庆刘启元张栋王建成李寿山周国栋《北京大学学报(自然科学版)》2020,56(1):75-81

不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。相似文献

10.

基于SGD的决策级融合维度情感识别方法

胡新荣陈志恒刘军平彭涛何儒汉何凯《郑州大学学报(理学版)》2022,(4):49-54

在双模态维度情感识别中,存在由于信息不全面而导致预测性能不高的缺陷,且使用决策级融合方法进行融合大多依赖支持向量回归算法,但该算法无法有效处理大样本情况。为了解决以上问题,在语音和文本模态的基础上增加动作捕捉(motion capture, Mocap)数据,并针对该多模态数据提出一种基于随机梯度下降(stochastic gradient descent, SGD)的决策级融合维度情感识别方法。结合多任务学习机制,利用不同的深度学习模型分别对语音、文本和Mocap特征进行训练,并基于决策级融合方法实现多模态维度情感识别。在IEMOCAP数据集上的实验结果表明,Mocap数据更有助于提高效价维的值,结合更多情感数据有助于提升维度情感识别的预测性能,基于SGD进行决策级融合得到的一致性相关系数均值高于其他回归算法。相似文献

11.

一种适用于多模态过程监控的集成统计指标

解翔侍洪波《华东理工大学学报(自然科学版)》2012,38(4):488-494

具有多模态特性的工业过程的数据分布呈现出与单模态过程不同的特性。在构造监控指标时,不仅要能够概括每个模态内部的数据统计特征,还要充分考虑到不同模态之间的信息。传统的T~2和SPE统计量在多模态过程中可能无法实现这一目标。提出了一种融合多模态统计信息的全局监控统计量,在贝叶斯推论的框架下,通过对每个模态的局部马氏距离赋予相应权重来实现对多模态数据的描述。通过多模态的连续反应搅拌釜(CSTH)仿真实验,验证了全局监控指标的有效性和灵敏性。相似文献

12.

基于文本增强的共注意机制的多模态标签推荐

冯皓楠何智勇马良荔《陕西师范大学学报(自然科学版)》2023,(5):60-66

针对新型社交平台用户发布帖子时通常会使用标签来标记帖子的关键词或话题来提高自己在社交媒体中参与度的问题,使用了层级结构,从单词、短语和句子三个层级来提取文本特征。并且提出文本内容的汇总注意机制,将每个层级的语义内容总结为一个特征向量,然后提出一个文本增强的共注意模型,将每个层级的语义分别与图像模态进行语义融合。同时,考虑到不同用户使用标签的偏好习惯等各不相同,引入一个外部存储单元来记录每个用户的历史标签习惯,计算当前待推荐帖子与历史帖子之间的相似度影响向量,建立用户的个性化模块。在真实数据集上的实验结果表明,文中基于多模态帖子内容理解和个性化模块分析模型相比与其他模型,在精确率、召回率和F₁分数上都有很大提升;提出的两个关于多模态内容理解的注意力机制和用户的个性化建模都对整体推荐效果有显著的贡献。相似文献

13.

"文本为主"的多模态特征融合的新闻视频分类算法 总被引：4，自引：0，他引：4

王鹏蔡锐杨士强《清华大学学报(自然科学版)》2005,45(4):475-478

视频分类算法通过融合多模态特征提高分类性能.大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异.该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式.该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充.对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳. 相似文献

14.

基于距离置信度分数的多模态融合分类网络

郑德重杨媛媛黄浩哲谢哲李文涛《上海交通大学学报》2022,(1):89-100

使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态... 相似文献

15.

多模态情感分析模型对抗攻击评估与防御方法

范福兰聂新邓贤君刘生昊《华中科技大学学报(自然科学版)》2023,(2):19-24

为系统探究多模态情感分析模型在对抗攻击下的鲁棒性,采用3种经典对抗攻击方法(快速梯度符号方法、投影梯度下降和动量迭代快速梯度符号方法)、2种模态数据输入(视觉和语音)和4种不同的数据特征融合方法(特征相加、特征拼接、多模态低秩双线性和多模态Tucker融合),对比各种组合下模型的性能表现,研究影响多模态情感分析模型鲁棒性的内在因素．提出一种基于互信息最大化的多模态防御方法,通过减少输入模态特征中的冗余信息提升模型鲁棒性．研究结果表明：在非线性特征融合及双模态数据输入组合下,模型抵御对抗攻击效果最佳;在应用互信息最大化防御方法后,模型性能及抵御攻击能力均可得到有效提升．相似文献

16.

基于广义典型相关分析融合和鲁棒概率协同表示的人脸指纹多模态识别 总被引：1，自引：0，他引：1

张静刘欢喜丁德锐肖建力《上海理工大学学报》2018,40(2):158-165

针对单模态生物特征识别容易受自身条件和环境变化的影响,鉴于人脸识别和指纹识别已经在生物识别系统中得到了广泛应用,提出了二者特征信息融合的多模态生物特征识别方法。该方法首先对人脸、指纹图像进行预处理,并对这两种模态均提取LBP和Gabor特征,然后将广义典型相关分析方法分别引入到人脸多特征融合和指纹多特征融合中,应用分块对角矩阵组合上述融合的人脸特征和指纹特征,最后用鲁棒概率协同表示分类器进行分类。在两个多模态数据库上的实验结果表明:与人脸或指纹单模态生物特征识别相比,基于人脸指纹的多模态生物特征识别具有更高的识别率和更好的稳定性;所提出的基于广义典型相关分析的特征融合方法优于传统的融合方法。相似文献

17.

一种融合多模态特征的视频暴力检测方法

马境远刘鲲傅慧源《重庆邮电大学学报(自然科学版)》2021,33(5):861-867

暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89％和1.66％. 相似文献

18.

视觉-语言多模态预训练模型前沿进展

朱若琳蓝善祯朱紫星《中国传媒大学学报》2023,(1):66-74

近年来,多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明,多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式,包括对比学习,掩码自监督等,在大规模的图文相关性数据上进行训练,通过学习模态自身与模态间的知识先验,使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代,本文介绍了视觉多模态领域基于Transformer的相关工作;对主流多模态学习方法的发展脉络进行梳理,分析了不同方法的优势和局限性;总结了多模态预训练的各种监督信号及其作用;概括了现阶段主流的大规模图像-文本数据集;最后简要介绍了几种相关的跨模态预训练下游任务。相似文献

19.

基于多任务多模态学习的谣言检测框架

蒋方婷梁刚《四川大学学报(自然科学版)》2024,(2):100-111

谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题：（1）只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.（2）缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态（图像或文本）缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架（MMRDF）,该框架由3个子网络组成：文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文（纯文本、纯图像、文本-图像对和多图像文本）,并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别... 相似文献

20.

图文决策融合的多模态电商垃圾评价检测

沈学利赵科林李世银《重庆邮电大学学报(自然科学版)》2021,33(6):1038-1046

现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44％,召回率提高2.12％,Micro-F1提高3.67％,结果证实该方法能够对多模态垃圾评价进行有效检测. 相似文献