共查询到20条相似文献,搜索用时 0 毫秒
1.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。 相似文献
2.
3.
煤场作业人员的安全防护是火电厂安全有序生产的重要保障.封闭煤场内部场景存在光照条件差、粉尘干扰严重、颜色信息单调、检测范围广的特点,导致在该场景中传统基于可见光图像的人员检测方法无法有效检测人员安全性.本文提出一种基于双光相机的多模态融合深度学习的方法,对封闭煤场作业人员进行精确的目标检测,检测精度较原始检测方法提升了... 相似文献
4.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法. 相似文献
5.
针对无人驾驶系统环境感知中的车辆检测精度低的问题,本文提出一种基于多模态特征融合的三维车辆检测算法.该算法通过毫米波雷达与摄像机联合标定,匹配2个传感器间的坐标关系并减小采样误差;采用统计滤波剔除毫米波雷达数据冗余点,减少离群点干扰;构造多模态特征融合模块,利用逐像素平均融合点云与图像信息;加入特征金字塔提取融合后的高... 相似文献
6.
张燕 《吉林大学学报(理学版)》2025,(3):855-860
针对传统多模态数据特征融合算法存在融合效果较差的问题,提出一种基于深度学习与D-S(Dempster-Shafer)理论的多模态数据特征融合算法.首先,在深度学习框架内,采用受限Boltzmann机(RBM)对多模态数据进行训练,根据数据的特性和任务需求,构建RBM模型结构进行多模态数据特征选择.其次,根据选取的特征选择计算同类模态数据之间的距离,确定信任函数,并设定阈值以删除异常数据,实现同类模态数据初步融合.最后,通过计算异类模态数据与不同等级特征之间的距离,确定异类数据的信任函数,结合D-S理论实现多模态数据特征融合.实验结果表明,该算法的纯度最高达1.0,标准化互信息最高达0.3,表明该算法可以获取精准的多模态数据特征融合结果. 相似文献
7.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态... 相似文献
8.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别... 相似文献
9.
针对自动驾驶中对行人等较小目标及被遮挡目标的检测精度较低的问题,本研究提出一种基于自注意力机制的融合图像和点云的三维目标检测算法,在基于原始点云数据处理的F-PointNet网络上进行改进,通过在点云特征提取网络中引入两层基于Transformer的自注意力机制模块,兼顾了点云全局特征和局部特征,从而提高了三维目标的检测精度;其次,在损失函数中引入弹性网络正则化权重衰减项,从而提高模型的泛化能力,实现更高精度的收敛。基于KITTI数据集进行对比实验,结果表明,引入自注意机制和弹性网络正则化后,在简单、中等和困难难度情境下,与初始模型对比,行人的检测精度分别提高6.47%、6.31%和5.61%,骑行人的检测精度分别提高15.34%、12.88%和11.79%。 相似文献
10.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%. 相似文献
11.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。 相似文献
12.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性. 相似文献
13.
针对全天候工作的多模态行人检测算法体积大、运算量高、效率不足的问题,提出一种基于深度学习MBNet算法搭建的轻量级多模态行人检测算法(G-MBNet)。采用ResNet18算法并结合跨阶段链接的思想搭建CSP-ResNet18轻量级特征提取网络,以保证检测算法精度;引入轻量级高效通道注意力(ECA)模块来提升特征提取网络对重要特征的关注能力,在引入极少参数的情况下提升算法的检测精度;通过引入轻量级Ghost卷积模块来重构MBNet算法的特征提取网络,在保证特征提取性能的情况下进一步降低算法的参数与体积,提升算法的检测速度。采用所提的G-MBNet算法在KAIST行人数据集进行测试,实验结果表明:G-MBNet算法大小是原始算法的32.33%,参数量是原始算法的37.81%,检测速度是原始算法的1.53倍;G-MBNet算法可在保证行人识别精度的情况下有效提升检测速度。 相似文献
14.
现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%,结果证实该方法能够对多模态垃圾评价进行有效检测. 相似文献
15.
情感计算中音/视频的情感识别对人机交互等领域的深层次认知具有重要应用价值,在现代远程教育中可作为教学过程性实时评估的重要技术之一.为克服单一模态模型识别精度依赖于情感类型这一问题,本文提出一种基于长短时记忆(LSTM)网络的多模态情感识别模型,采用双路LSTM分别模拟人类听觉和视觉处理通路处理语音和面部表情的情感信息,... 相似文献
16.
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。 相似文献
17.
生物特征识别是信息技术领域的研究热点,其中多模态生物识别技术凭借更好的适用性、更高的安全性及更优的性能成为发展趋势。提出了一种融合虹膜特征和掌纹特征的多模态生物特征识别方法,该方法分别提取虹膜及掌纹特征,融合时不同于传统的匹配级融合,而是从特征级融合入手,采用并行特征融合策略,将两特征向量以复向量的形式进行融合,构成复向量空间,并利用酉距离进行匹配决策。实验结果表明此方法比单模生物特征方法在识别性能上有了明显改善,同时与传统匹配级融合策略相比,更有优势,识别效果更好。 相似文献
18.
多模态医学图像融合技术综述 总被引:1,自引:0,他引:1
介绍了医学图像融合的级别和方式,重点对目前国内外医学图像配准和融合的技术与方法进行了阐述,最后提出了在医学图像融合技术研究中的几个热点问题. 相似文献
19.
20.
针对自动驾驶场景下的周边车辆及行人等目标的识别和定位问题,提出了一种基于注意力机制的PointPillars+三维目标检测算法.算法将完整空间按等尺寸柱均匀划分,从所有柱中提取内部点云的特征进而生成伪图;引入2种注意力机制,实现对伪图中特征信息的放大和抑制;使用卷积神经网络对注意力模块输出结果进一步处理,并使用SSD(single shot multibox detector)算法进行三维目标检测.结果表明:基于并行注意力机制的PointPillars+检测算法取得了良好的检测效果,相对于PointPillars算法,鸟瞰图下,平均均值精度(mAP)的中等难度均值(mAP_m)从66.19增加到69.95,汽车的mAP从86.10增加到87.73;三维模式下,mAP_m从59.20增加到62.55,汽车的mAP从74.99增加到76.25. 相似文献