首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
严松  张蕾 《科学技术与工程》2024,24(17):7239-7248
针对机器人抓取检测任务中对未知物体抓取检测精度低的问题,本文提出了一种多模态深度神经抓取检测模型。首先,在RGB和深度两个通道中引入残差模块以进一步提升网络的特征提取能力。接着,引入多模态特征融合模块进行特征融合。最终通过全连接层回归融合特征以得到最佳抓取检测结果。实验结果表明,在Cornell抓取数据集上,本文方法的图像拆分检测精度达到95.7%,对象拆分检测精度达到94.6%。此外,本文还通过消融实验证明了引入残差模块可以提高网络抓取检测性能。  相似文献   

2.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

3.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态...  相似文献   

4.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

5.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。  相似文献   

6.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。  相似文献   

7.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。  相似文献   

8.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

9.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

10.
典型相关分析是一种经典的线性多模态融合方法,但是难以有效解决高维非线性数据的多模态融合问题.结合典型相关分析、线性回归分析与深度神经网络,提出一种新颖的多模态融合方法,即深度偏最小二乘相关分析.该方法能够在最大化不同模态之间相关性的前提下学习具有强鉴别力的跨模态融合数据,并且能够有效解决典型相关分析面临的高维非线性困境...  相似文献   

11.
三维目标检测中图像数据难以获得目标距离信息,点云数据难以获得目标类别信息,为此提出一种将图像转为俯视角特征的方法,将多尺度图像特征按水平维度展平,通过稠密变换层转变为多尺度图像俯视角特征,最终重塑为全局图像俯视角特征.在此基础上,提出一种基于俯视角融合的多模态三维目标检测网络,利用特征拼接或元素相加的方法融合图像俯视角特征与点云俯视角特征.在KITTI数据集上的实验表明,提出的基于俯视角融合的多模态三维目标检测网络对于车辆、行人目标的检测效果优于其他流行的三维目标检测方法 .  相似文献   

12.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

13.
在新服装产品销售预测任务中,由于缺乏历史销售数据,通常需要充分利用其他模态的数据作为补充。然而,多模态服装数据通常具有冗余性和异构性。为解决这些问题,提出一种包括三个主要元素的层次化多模态注意力循环神经网络(hierarchical multi-modal attention based recurrent neural network, HMA-RNN)。层次化结构将高层语义信息与低层语义信息分离,以避免信息冗余。在模态融合阶段引入多模态注意力机制(multi-modal attention, MMA)以减轻固有的数据不对齐问题。采用共享注意力机制构建跨多模态数据的依赖关系。在Visuelle 2.0数据集上的试验结果表明,所提出的方法加权平均百分比误差(weighted average percentage error, WAPE)为72.07,平均绝对误差(mean absolute error, MAE)为0.80,明显优于现有的方法,表明了该研究所提出的方法的有效性。  相似文献   

14.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

15.
王风华 《科学技术与工程》2012,12(13):3134-3138
生物特征识别是信息技术领域的研究热点,其中多模态生物识别技术凭借更好的适用性、更高的安全性及更优的性能成为发展趋势。提出了一种融合虹膜特征和掌纹特征的多模态生物特征识别方法,该方法分别提取虹膜及掌纹特征,融合时不同于传统的匹配级融合,而是从特征级融合入手,采用并行特征融合策略,将两特征向量以复向量的形式进行融合,构成复向量空间,并利用酉距离进行匹配决策。实验结果表明此方法比单模生物特征方法在识别性能上有了明显改善,同时与传统匹配级融合策略相比,更有优势,识别效果更好。  相似文献   

16.
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。  相似文献   

17.
多模态医学图像融合技术综述   总被引:1,自引:0,他引:1  
介绍了医学图像融合的级别和方式,重点对目前国内外医学图像配准和融合的技术与方法进行了阐述,最后提出了在医学图像融合技术研究中的几个热点问题.  相似文献   

18.
钟维幸  王海荣  王栋  车淼 《广西科学》2022,29(4):681-690
针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。  相似文献   

19.
"文本为主"的多模态特征融合的新闻视频分类算法   总被引:4,自引:0,他引:4  
视频分类算法通过融合多模态特征提高分类性能.大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异.该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式.该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充.对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳.  相似文献   

20.
智慧司法是智慧城市建设中不可或缺的一部分,智慧司法中法律文书推荐体系的建设完善可以有效解决裁判尺度不统一,类案不同判和量刑不规范等问题.针对现阶段法律文书推荐体系不完善,存在对算力要求高、推荐准确率低和不能满足用户对诉讼请求服务的即时性需求问题,以及为了建立智慧司法中法律纠纷快速响应机制,文中提出了基于深度多模态与核密...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号