首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着个人计算机和互联网上数字图像数量的快速增长,用户越来越多借助于"语义概念"来检索感兴趣图像。然而由于图像底层特征刻画和高层语义概念描述间存在很大的差异,使得现有图像标注算法性能不甚理想。因此,文中提出基于多模态深度学习的图像标注框架,旨在应用卷积神经网络技术优化深层神经网络的参数,提高标注精度。具体地,文中提出的多模态深度学习标注框架利用两阶段学习,优化神经网络参数:(1)利用深度神经网络,优化各单模态参数;(2)利用相关性,实现多模态的最优组合。公共数据集的实验表明,该方案可以有效地提高图像标注的性能。  相似文献   

2.
为解决从单目图像中很难恢复出准确、有效深度信息的问题,提出一种多尺度特征融合的单目图像深度估计算法.算法采用端对端训练的卷积神经网络(CNN)结构,引入从图像编码器到解码器的跳层连接来实现在不同尺度上特征的提取和表达,设计了一种多尺度的损失函数来提升卷积神经网络的训练效果.通过在NYU Depth V2室内场景深度数据集和KITTI室外场景深度数据集上的训练、验证和测试,实验结果表明:提出的多尺度特征融合方法得到的深度图边缘清晰、层次分明,且在室内场景和室外场景中均能适用,具有较强的泛化性,可以适应多种实际场景的需求.  相似文献   

3.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

4.
近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺乏先前的信息引导,提出了记忆助手的方法,并给出了一种面向大规模中文数据集的多模态神经网络模型.该模型采用深度卷积神经网络(Inception-v4、Inception-ResNet-v2)和注意力机制提取图像视觉特征,在循环神经网络中引入记忆助手来引导句子的生成.实验证明,在AI CHALLENGER测试集中,这种模型显著地提高了各项评价指标.  相似文献   

5.
为利用多尺度信息重建超分辨率图像,提出多尺度卷积神经网络的图像超分辨率重建算法。算法利用不同尺度的卷积核提取图像特征,为图像重建提供不同大小的邻域信息;用瓶颈层融合多尺度特征图,增强网络非线性表示能力,降低中间层输出的维数,提高图像的超分辨率重建性能。多个测试集上的实验结果表明,多尺度卷积神经网络算法优于现有的单幅图像超分辨率方法。  相似文献   

6.
为了检索图像中不同位置和不同大小的感兴趣目标,提出一种基于多尺度深度卷积特征的图像检索方法.首先利用卷积神经网络构造一个深度学习框架,利用随机梯度下降和后向传播算法训练深度学习模型;其次利用训练得到的模型提取图像在不同尺度下的卷积特征,对不同尺度下的卷积特征进行PCA降维,研究降维后的检索性能;最后为了提高深度特征对图像的刻画能力,对不同尺度下降维后的卷积特征进行特征融合.大量的实验表明本文所提算法对图像检索是有效的.  相似文献   

7.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

8.
多模态生物识别可以弥补单模态生物识别存在的缺陷,已成为目前生物识别研究的主流趋势.现有的多模态生物识别大都使用传统的机器学习方法,而以深度学习为代表的新一代人工智能方法在该领域的应用研究相对较少.因此,提出了一种端到端、可训练的卷积神经网络(Convolutional Neural Network,CNN)模型用于多模态生物特征识别,并从单模态和多模态两方面研究模型结构和融合方式对识别性能的影响.在单模态识别中,研究不同网络层数和卷积核对识别性能的影响,并利用单模态识别的结果确定多模态识别的网络结构;在多模态识别中,为研究不同阶段特征融合对识别性能的影响,设计了两种不同的CNN结构;基于3种不同的融合方法,探索单层特征融合和双层特征融合机制对识别性能的影响,并通过组合优化给出一种最优的深度模型结构.为了评估本文方法的性能,分别在AR、Yale、Extended YaleB、LFW、PolyU和CASIA V1.0等6个标准数据库上进行验证.试验结果表明,基于CNN的单模态识别方法优于传统机器学习方法,本文提出的方法能够胜任单模态或多模态生物识别任务.  相似文献   

9.
将深度学习应用于行人重识别领域,嵌入多尺度注意力融合模块至神经网络中进行多尺度特征提取和表示,可有效提升注意力机制对深度学习网络的识别性能。提出了一种基于SE block的多尺度通道注意力融合模块,并结合ResNet50卷积神经网络提取特征;然后通过双向LSTM网络进一步提取特征序列上下文信息,在提高模型对图像重要特征的提取能力的同时,降低对图像冗余特征的关注度;最后使用级联难采样三元组损失函数和交叉熵损失函数共同训练网络模型,使样本能够在高维特征空间中实现聚类,进一步提升模型识别准确性。所提出算法在Market1501数据集和CUHK03数据集分别进行实验,并在同等条件下和其他注意力模块算法进行比较。为进一步验证各模块作用,对算法进行消融实验,以验证各模块的有效性,实验结果表明,所提出方法可有效应用于行人重识别  相似文献   

10.
近年来,深度卷积神经网络应用于图像语义分割领域并取得了巨大成功。提出了一个基于RGB-D(彩色-深度)图像的场景语义分割网络;该网络通过融合多级RGB网络特征图和深度图网络特征图,有效提高了卷积神经网络语义分割的准确率。同时,利用带孔的卷积核设计了具有捷径恒等连接的空间金字塔结构来提取高层次特征的多尺度信息。在SUN RGB-D数据集上的测试结果显示,与其他state-of-the-art的语义分割网络结构相比,所提出的场景语义分割网络性能突出。  相似文献   

11.
在多模态医学图像背景下,针对单模态图像识别存在目标模糊、边界不清等问题,提出一种基于随机化特征融合的卷积神经网络(Convolutional Neural Network,CNN)目标识别方法.首先使用参数迁移法构造卷积神经网络模型,利用自建的多模态医学图像数据库对CNN模型进行微调;然后,分别用CT(Computed Tomography),PET(Positron Emission Computed Tomography)和PET/CT三个模态的数据并行地训练网络,并提取全连接层的特征向量;其次,构造随机函数,将三个模态的全连接层数据进行随机化融合;最后,通过另一个全连接层和分类器对融合后的特征进行分类识别.通过批次大小、迭代次数和网络层数三个角度验证该方法的有效性,实验结果表明,随机化融合效果优于单模态CNN,且特异性和灵敏度也较高,因此该方法对临床肺部肿瘤识别具有良好的适应性.  相似文献   

12.
关生  周延森 《科学技术与工程》2022,22(36):16108-16115
针对卷积神经网络模型待训参数量过大、多层网络导致特征和梯度消失等问题,论文提出了一种基于拆分层和Inception-ResNet的卷积神经网络模型用于入侵检测。首先将网络流量数据转化为具有空间相关性的图像以适用于卷积神经网络的输入;然后使用Inception-ResNet卷积层增加网络深度,减少模型训练参数数量以及消除梯度消失问题,拆分层在降低图像尺度时基本保持图像原有分类特征;最后采用NSL-KDD数据集对改进模型进行训练和测试。测试结果表明,改进模型相对于Inception-ResNet模型具有更高的检测准确率和少数类样本召回率以及更好的训练时间性能。  相似文献   

13.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

14.
近年来,深度卷积神经网络应用于图像语义分割领域并取得了巨大成功。本文提出了一个基于RGB-D(彩色-深度) 图像的场景语义分割网络。该网络通过融合多级RGB网络特征图和深度图网络特征图,有效提高了卷积神经网络语义分割的准确率。同时,本文利用带孔的卷积核设计了具有捷径恒等连接的空间金字塔结构来提取高层次特征的多尺度信息。在SUN RGB-D数据集上的测试结果显示,与其它state-of-the-art的语义分割网络结构相比,本文所提出的场景语义分割网络性能突出。  相似文献   

15.
人群间的相互遮挡和多变的空间尺度是基于单幅图像人群计数算法面临的主要挑战.近年来,基于深度学习的人群计数算法在该问题上取得了显著的成效,然而越来越深的网络结构给模型的训练和应用带来了困难.为了解决上述问题,提出了一种基于多尺度融合卷积神经网络(multi-scale fusion convolution neural network,MSF-CNN)的人群计数方法.方法采用三列不同大小卷积核的卷积神经网络来提取不同空间尺度的图像特征,同时在网络结构中引入融合层将提取到的特征进行融合并求取密度图,最后对密度图积分求和得到人群数量.在ShanghaiTech数据集及UCF_CC_50数据集上的实验结果表明,该方法能够适应复杂的场景,有效减少人群间相互遮挡和空间尺度的变化对计数结果的影响,同时模型易于训练,明显优于现有人群计数方法.  相似文献   

16.
指出了基于深度学习的图像语义分割中,如何充分利用图像上下文信息以达到更好的分割效果,是当前图像语义分割研究的关键问题.为解决这一问题,提出了一种基于多尺度特征提取的图像语义分割方法,通过构建深层卷积神经网络,并利用不同尺度图像作为网络的输入来提取不同尺度图像的特征,最后经过特征融合得到了分割图.在公开数据集Stanford background dataset 8类数据集上进行训练和验证,实验结果达到了84.33%的准确率.实验表明:通过提取和融合多尺度特征,可以达到更好的图像语义分割效果.  相似文献   

17.
三维目标检测中图像数据难以获得目标距离信息,点云数据难以获得目标类别信息,为此提出一种将图像转为俯视角特征的方法,将多尺度图像特征按水平维度展平,通过稠密变换层转变为多尺度图像俯视角特征,最终重塑为全局图像俯视角特征.在此基础上,提出一种基于俯视角融合的多模态三维目标检测网络,利用特征拼接或元素相加的方法融合图像俯视角特征与点云俯视角特征.在KITTI数据集上的实验表明,提出的基于俯视角融合的多模态三维目标检测网络对于车辆、行人目标的检测效果优于其他流行的三维目标检测方法 .  相似文献   

18.
基于注意力机制的水下目标检测算法   总被引:1,自引:0,他引:1  
针对传统水下目标检测算法识别精度低的问题,提出一种基于注意力机制的水下目标检测算法(feature refinement and attention mechanism network,FRANet).该算法采用特征融合模块和特征增强模块相结合的方式,使用卷积神经网络提取目标的多尺度特征.同时引入一种由锚框精化模块、空...  相似文献   

19.
针对现有去雾方法色彩失真、去雾不彻底、细节丢失等问题,提出一种模块化的端到端的单幅图像深度去雾网络.首先,利用多尺度卷积核对输入有雾图像提取充分的关键特征;其次,构建由残差密集块及上、下采样单元形成的行和列的网格网络结构,行列之间通过一种新颖的注意力机制进行特征融合与提取;最后,由残差密集块和卷积层构成的后处理模块进一步减少去雾图像的残余伪影.定量和定性实验结果表明,所提方法去雾性能优越.  相似文献   

20.
作为深度学习的一种有效算法,深度卷积网络已成功应用在处理图像、视频和音频等领域.通过建立一卷积神经网络模型并应用于网络入侵检测,选取的卷积核与数据进行卷积操作提取特征的局部相关性从而提高特征提取的准确度.采集到的网络数据通过多层"卷积层-下采样层"的处理对网络中正常行为和异常行为的特征进行深度刻画,最后通过多层感知机进行正确分类.KDD 99数据集上的实验表明,文中提出的卷积神经网络模型与经典BP神经网络、SVM算法等相比,有效提高了入侵检测识别的分类准确性.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号