首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

2.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

3.
随着进入大数据时代,"标记数据少,而未标记数据多"的现象越来越普遍.半监督学习是充分利用样本中"廉价"的未标记样本,让学习器不依赖外界交互、自动地利用未标记样本提升学习性能.通过构建多模态概率生成模型对数据进行建模,然后分析该模型上的监督学习过程和非监督学习过程,最后结合两种学习过程实现半监督学习.通过在MNIST数据...  相似文献   

4.
基于神经网络编码–解码框架的复述生成模型存在两方面的问题: 1) 生成的复述句中存在实体词不准确、未登录词和词汇重复生成; 2) 复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题, 本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型, 利用复制机制从原句复制词语来解决实体词和未登录词生成问题; 利用覆盖机制建模学习注意力机制历史决策信息来规避词汇重复生成。针对第二个问题, 基于多任务学习框架, 提出在复述生成任务中联合自编码任务, 两个任务共享一个编码器, 同时利用平行复述语料和原句子数据, 共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明, 提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题, 并提高了复述句的生成质量。  相似文献   

5.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

6.
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。  相似文献   

7.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

8.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。  相似文献   

9.
为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。  相似文献   

10.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。  相似文献   

11.
提出一种基于语法的代码生成模型, 该模型具有选择性局部注意力和包含前序信息的长短期记忆(LSTM)神经网络解码器, 通过更改上下文向量的计算范围, 并在解码过程中融合更多的前序信息, 增强单词之间的相关性。在Hearthstone和Django两个数据集上进行的代码生成实验证实了所提模型的有效性, 与最新的模型相比, 所提模型不仅表现出更出色的准确率和双语评估学习成绩, 还可以使计算工作量最小化。  相似文献   

12.
针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题,提出仅需要单语语料训练的无监督的句法可控复述生成模型,用以生成对抗样本.采用变分自编码方式学习模型,首先将句子和句法树分别映射为语义变量和句法变量,然后基于语义变量和句法变量重构原始句子.在重构过程中,模型可以在不使用任何平行语料...  相似文献   

13.
为解决当前开放域对话系统中端到端模型在生成响应时存在的相关性低、多样性不足的问题,提出了一种多源异构知识增强对话生成模型(multi-source knowledge-enhanced dialogue generation framework, MSGF)。该模型通过整合多个不同的知识源,提高了与对话背景信息相关的知识覆盖率,并采用全局知识选择模块解决不同知识源之间的主题冲突问题,来避免对话主题含义混淆。此外,该模型还引入了融合预测模块,通过获取不同的知识源中的信息来生成响应。实验结果表明,与同类其他模型相比,MSGF模型在性能上具有明显优势,具有更全面的知识覆盖,生成的响应主题相关性更高。可见,所提出的MSGF模型能够很好地理解对话内容,并显著提升对话系统的性能。  相似文献   

14.
针对ML-GCN中标签共现嵌入维度过高影响模型分类性能和ML-GCN中没有充分发掘标签之间不对称关系的问题,提出一种基于图注意力网络的多标签图像分类模型ML-GAT;ML-GAT模型首先对高维标签语义嵌入矩阵进行降维;然后通过降维后的低维标签语义嵌入表示和标签类别共现图得到标签共现嵌入;与此同时ML-GAT将多标签原始...  相似文献   

15.
汉字动态生成的结构与风格模型   总被引:1,自引:0,他引:1  
提出一种基于汉字结构和风格的字形生成模型。该模型将汉字字形抽象为汉字结构和汉字风格两种模式,并在结构中将汉字笔画抽象为连续的笔元,通过笔元的特征点构造笔元向量、径向量、弦向量和轭向量,进行笔画风格的重建。通过这种方法,动态产生可用于True type个性化汉字字形设计的字形,实现汉字字形的Web存储和在客户端的特征字形输出,克服了现代汉字由于汉字数量巨大而在字形设计方面的不足,为个性化汉字信息的云端存储和云端字形服务提供了一种有效的策略和方法,为设计更深层次的汉字信息服务奠定了基础。  相似文献   

16.
提出了两种图像生成的方法:(1)由图像分割、三维重建和投影生成构成。该方法考虑了图像中各部分表面发射模型的差异,通过将图像各区域向1分成朗伯表面和镜面反射,分别进行三维重建,然后融合两结果,改变光照方向和强度,投影生成新的图像;(2)将Shape from shading和Shape from texture技术融合起来。采用Gabor滤波器将图像中的纹理成分和阴影成分区分开来,再用两种方法各自生成三维立体图像,依据它们的特性在频域融合两个三维图像,然后再改变视角和光照的强度、方向,生成仿真的二维图像。实验表明,由该两种方法恢复出的形状优于传统的估计方法,生成的图像真实感强。  相似文献   

17.
评价自动驾驶算法对异常交通事件的响应具有重要的应用价值,针对在真实世界中制造异常交通事件存在代价高、风险大等问题,本文提出了一种面向自动驾驶算法评估的异常交通事件生成方法,该方法可以自动生成5类异常交通事件;基于该方法,搭建了一个驾驶策略评估系统,以实现对自动驾驶算法的评估.为验证生成的异常交通事件的有效性,对一种基于深度网络的模仿学习自动驾驶算法进行了评估.实验结果表明,生成的异常交通事件可以更全面地评估自动驾驶算法的性能.  相似文献   

18.
软件构件技术可显著提高程序的可靠性和开发效率,极大减少开发成本.泛型程序设计有助于降低编程的复杂度,为重用构件开发提供有效支持.介绍了生成式程序设计思想及泛型程序设计技术,分析了图算法领域的关键特征及领域共性问题,并对广度优先搜索、单源最短路径、所有顶点对最短路径等一类问题进行抽象,设计出相应的泛型图算法构件,进一步借助PAR方法中的泛型机制进行描述,并在PAR平台程序生成系统上进行构件组装生成具体的算法程序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号