首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。  相似文献   

2.
严松  张蕾 《科学技术与工程》2024,24(17):7239-7248
针对机器人抓取检测任务中对未知物体抓取检测精度低的问题,本文提出了一种多模态深度神经抓取检测模型。首先,在RGB和深度两个通道中引入残差模块以进一步提升网络的特征提取能力。接着,引入多模态特征融合模块进行特征融合。最终通过全连接层回归融合特征以得到最佳抓取检测结果。实验结果表明,在Cornell抓取数据集上,本文方法的图像拆分检测精度达到95.7%,对象拆分检测精度达到94.6%。此外,本文还通过消融实验证明了引入残差模块可以提高网络抓取检测性能。  相似文献   

3.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法.  相似文献   

4.
针对无人驾驶系统环境感知中的车辆检测精度低的问题,本文提出一种基于多模态特征融合的三维车辆检测算法.该算法通过毫米波雷达与摄像机联合标定,匹配2个传感器间的坐标关系并减小采样误差;采用统计滤波剔除毫米波雷达数据冗余点,减少离群点干扰;构造多模态特征融合模块,利用逐像素平均融合点云与图像信息;加入特征金字塔提取融合后的高...  相似文献   

5.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态...  相似文献   

6.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别...  相似文献   

7.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

8.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

9.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

10.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。  相似文献   

11.
现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%,结果证实该方法能够对多模态垃圾评价进行有效检测.  相似文献   

12.
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。  相似文献   

13.
情感计算中音/视频的情感识别对人机交互等领域的深层次认知具有重要应用价值,在现代远程教育中可作为教学过程性实时评估的重要技术之一.为克服单一模态模型识别精度依赖于情感类型这一问题,本文提出一种基于长短时记忆(LSTM)网络的多模态情感识别模型,采用双路LSTM分别模拟人类听觉和视觉处理通路处理语音和面部表情的情感信息,在eNTERFACE’05双模态情感数据集上进行训练和测试,并模拟人脑边缘系统情感区进行决策层加权特征融合,传统情绪六分类标准的准确率可达74.7%.同时,考虑到传统离散情绪六分类法无法进行程度度量,且存在外在表现相似和多情感同时并存的问题,本文提出一种新的多模态情感识别模型的空间标注法,采用模型层特征融合方法将情感分类特征映射到激活度-效价空间(Arousal-Valence Space),从而更好刻画情感的程度,实验结果显示准确率在空间两个维度上分别达到84.1%和86.6%.相比于已有的大多数相关研究,本文提出的模型运算量小,识别精度高,可进行实时在线情感识别.  相似文献   

14.
王风华 《科学技术与工程》2012,12(13):3134-3138
生物特征识别是信息技术领域的研究热点,其中多模态生物识别技术凭借更好的适用性、更高的安全性及更优的性能成为发展趋势。提出了一种融合虹膜特征和掌纹特征的多模态生物特征识别方法,该方法分别提取虹膜及掌纹特征,融合时不同于传统的匹配级融合,而是从特征级融合入手,采用并行特征融合策略,将两特征向量以复向量的形式进行融合,构成复向量空间,并利用酉距离进行匹配决策。实验结果表明此方法比单模生物特征方法在识别性能上有了明显改善,同时与传统匹配级融合策略相比,更有优势,识别效果更好。  相似文献   

15.
多模态医学图像融合技术综述   总被引:1,自引:0,他引:1  
介绍了医学图像融合的级别和方式,重点对目前国内外医学图像配准和融合的技术与方法进行了阐述,最后提出了在医学图像融合技术研究中的几个热点问题.  相似文献   

16.
目前管道检测技术尚难实现大面积、长距离和复杂状态管道的早期裂纹快速检测。而多模态超声导波管道检测技术,利用超声导波,基于小波分析、遗传算法和随机理论,研究激励的方法、信号的采集、分析和管道状态判别的理论和技术,可以实现这一目标。  相似文献   

17.
"文本为主"的多模态特征融合的新闻视频分类算法   总被引:4,自引:0,他引:4  
视频分类算法通过融合多模态特征提高分类性能.大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异.该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式.该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充.对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳.  相似文献   

18.
典型相关分析是一种经典的线性多模态融合方法,但是难以有效解决高维非线性数据的多模态融合问题.结合典型相关分析、线性回归分析与深度神经网络,提出一种新颖的多模态融合方法,即深度偏最小二乘相关分析.该方法能够在最大化不同模态之间相关性的前提下学习具有强鉴别力的跨模态融合数据,并且能够有效解决典型相关分析面临的高维非线性困境...  相似文献   

19.
为了通过设置辅助任务学习到更具有情感倾向性的视频和语音表示,进而提升模态融合的效果,提出一种基于多任务学习的多模态情感识别模型,使用多模态共享层来学习视觉和语音模型的情感信息.在MOSI数据集和MOSEI数据集上的实验表明,添加两个辅助的单模态情感识别任务后,模型可以学习到更有效的单模态情感表示,并且在两个数据集上的情...  相似文献   

20.
针对自动驾驶场景下的周边车辆及行人等目标的识别和定位问题,提出了一种基于注意力机制的PointPillars+三维目标检测算法.算法将完整空间按等尺寸柱均匀划分,从所有柱中提取内部点云的特征进而生成伪图;引入2种注意力机制,实现对伪图中特征信息的放大和抑制;使用卷积神经网络对注意力模块输出结果进一步处理,并使用SSD(single shot multibox detector)算法进行三维目标检测.结果表明:基于并行注意力机制的PointPillars+检测算法取得了良好的检测效果,相对于PointPillars算法,鸟瞰图下,平均均值精度(mAP)的中等难度均值(mAP_m)从66.19增加到69.95,汽车的mAP从86.10增加到87.73;三维模式下,mAP_m从59.20增加到62.55,汽车的mAP从74.99增加到76.25.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号