首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
近年来,基于深度学习的语义分割方法得到了广泛应用.本文针对实际遥感图像中的语义分割问题,为了减少网络参数和计算量,以及提高网络性能,提出了一个使用通道注意力机制的卷积神经网络(channel attention network,CA-Net).首先,对高分二号(GF-2)遥感图像进行预处理和数据标注,得到一个7分类数据...  相似文献   

2.
哈希算法结合卷积神经网络是一种常用的有效图像检索方法,这种有监督的学习方式要求大量人工标注的标签,耗费巨额的人力成本,且这种标签具有较强的专家制定性,在图像深层次语义的挖掘上能力有限。针对这一问题,该文提出了基于弱监督(Weakly-supervised)深度卷积神经网络的哈希函数框架,该框架包括弱监督的预训练和有监督的微调两个阶段。通过利用弱监督标签信息来学习语义感知哈希函数,将标签表示为语义词向量。根据语义间的相似与否来训练网络,设计的目标函数可以使语义相似的图像间的汉明距离较小,语义不相似的汉明距离相对较远。实验结果表明,该文提出的图像检索方法与目前先进的图像检索方法相比,精度提高了2%~6%。  相似文献   

3.
提出一种基于深度学习的异构多模态目标识别方法。首先针对媒体流中同时存在音频和视频信息的特征,建立一种异构多模态深度学习结构;结合卷积神经网络和限制波尔兹曼机的算法优点,对音频信息和视频信息分别并行处理,生成基于典型关联分析的共享特征表示,并进一步利用时间相关特性进行参数的优化。分别使用标准语音人脸库和截取的实际电影视频对算法进行实验。研究结果表明:对于这2种视频来源,所提出方法在目标识别的精度方面都有显著提高。  相似文献   

4.
基于关键字的自动图片标注方法,可以更为有效地实现海量图片的管理和检索.然而由于"语义鸿沟"问题,传统的自动图片标注效果往往并不理想.因此,对不精确的标注结果进行优化就显得尤为重要.文中提出一种新颖的图片标注方法.首先,利用基于相关性模型的递进算法得到图片的初始标注结果.然后,利用一种半监督的学习模型,也即随机游动与重新启动算法对得到的初始标注结果进行优化,并选择一定数量的顶端标注作为图片最终的标注.通过在通用Corel图片数据库的实验表明,文中提出的方案可以有效地提高图片自动标注的性能.  相似文献   

5.
为了更好地在图像描述生成任务中对新概念进行学习和预测,在编码-解码框架下提出了一种新的面向新概念学习的图像描述生成模型(Att-DCC)。该模型引入了带有空间注意力机制的卷积神经网络,将全局视觉特征、语义标签和经空间注意力作用后的视觉信息进行了较好的融合;此外,引入自适应注意力机制多模态层,将语义相近的概念学习结果迁移至新概念,降低训练过程的复杂程度并提升学习性能。采用Att-DCC模型在MSCOCO2014数据集上针对2批(分别为8和6个)共14个新概念进行了测试和分析,结果表明:充分的多模态融合方式和多种注意力机制对于提升学习效果有显著效果;Att-DCC模型在F1值上取得了42.56%和42.14%的平均结果,总体上取得了比具有代表性的NOC模型和DCC模型更准确的预测结果。  相似文献   

6.
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。  相似文献   

7.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。  相似文献   

8.
针对图像检索中存在的“语义鸿沟”问题,本文提出一种语义学习模型进行图像的自动标注.首先提出连续的概率潜在语义分析(PLSA)模型及对应的参数估计算法,并利用最大惩罚似然的方法解决协方差矩阵的奇异性问题;然后,提出一个根据不同模态数据各自的特点进行处理的概率模型,该模型使用连续PLSA和传统PLSA分别建模视觉特征和文本关键词,并通过不对称学习算法发现两种模态之间共有的语义主题,从而能更精确地对未知图像进行标注.通过在分别包含5 000幅和31 695幅图像的两个标准Corel数据集上进行实验,并与几种典型的图像标注方法进行比较的结果表明,文中方法具有更高的精度和更好的效果.  相似文献   

9.
陶瓷涂层具有耐高温、耐腐蚀、耐磨损等特性, 其热膨胀系数和热导率等参数与其性能息息相关. 为解决陶瓷涂层性能实验成本高、测试困难等问题, 提出了陶瓷涂层材料多模态数据表征学习的性能预测方法. 首先利用高斯混合模型虚拟样本生成(Gaussian mixture model virtual sample generation, GMMVSG)算法生成符合真实陶瓷涂层数据分布的样本来扩充数据集; 其次利用卷积神经网络 VGG16 对陶瓷涂层的显微结构图像数据进行特征提取, 利用 TabNet 对结构化数据进行特征提取, 将提取到的图像数据特征与结构化数据特征融合; 最终根据多模态数据表征建立基于K-最近邻(K-nearest neighbor, KNN)、支持向量机回归(support vector regression, SVR)和多层感知机(multi-layer perceptron, MLP) 3 种机器学习算法的预测模型, 对陶瓷涂层的性能指标, 即热膨胀系数和热导率进行了预测. 实验结果表明: 提出的多模态数据表征学习模型的预测结果要优于单模态数据表征学习模型, 其中基于 MLP 算法训练的多模态数据表征学习模型对陶瓷涂层性能的预测效果最好; 在测试集中, 对陶瓷涂层热膨胀系数预测的平均绝对误差(mean absolute error, MAE)和均方误差(mean square error, MSE)分别为 0.026 6 和 0.001 7, 对热导率预测的 MAE 和 MSE 分别为 0.017 9 和 0.000 7. 所提出的陶瓷涂层材料多模态数据表征学习方法有效融合了结构化数据与非结构化数据, 联合学习了各模态数据的潜在共享信息, 成功提升了对陶瓷涂料层材料性能预测的准确度.  相似文献   

10.
多模态生物识别可以弥补单模态生物识别存在的缺陷,已成为目前生物识别研究的主流趋势.现有的多模态生物识别大都使用传统的机器学习方法,而以深度学习为代表的新一代人工智能方法在该领域的应用研究相对较少.因此,提出了一种端到端、可训练的卷积神经网络(Convolutional Neural Network,CNN)模型用于多模态生物特征识别,并从单模态和多模态两方面研究模型结构和融合方式对识别性能的影响.在单模态识别中,研究不同网络层数和卷积核对识别性能的影响,并利用单模态识别的结果确定多模态识别的网络结构;在多模态识别中,为研究不同阶段特征融合对识别性能的影响,设计了两种不同的CNN结构;基于3种不同的融合方法,探索单层特征融合和双层特征融合机制对识别性能的影响,并通过组合优化给出一种最优的深度模型结构.为了评估本文方法的性能,分别在AR、Yale、Extended YaleB、LFW、PolyU和CASIA V1.0等6个标准数据库上进行验证.试验结果表明,基于CNN的单模态识别方法优于传统机器学习方法,本文提出的方法能够胜任单模态或多模态生物识别任务.  相似文献   

11.
钟维幸  王海荣  王栋  车淼 《广西科学》2022,29(4):681-690
针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。  相似文献   

12.
高分辨率遥感影像在实际应用中得到广泛使用。高分影像语义分割方法的研究具有重要实际应用价值。近来基于深度卷积网络的遥感影像标注方法表现出了比传统方法更为优越的性能;然而由于其基于固定感受野大小的上下文信息获取方法没有显式利用像素间约束关系,导致同一地物内部语义标注结果不一致。基于同一区域内部像素属于相同类别概率较大的假定,试图引入图像区域内部语义标注一致性约束,以改善现有深度卷积神经网络描述上下文信息的能力。在现有全卷积网络模型基础上,利用卷积神经网络最后一层特征,引入一个表示区域内部像素特征一致性的损失函数;将该损失函数与softmax损失函数进行联合训练,得到网络模型参数。在ISPRS(国际摄影测量与遥感学会)的Vaihingen 2D语义标注数据集上,对提出的方法进行了实验验证,实验结果表明所提方法在大多数类别上取得了较现有卷积神经网络模型更优的分类结果,总体准确率达85.18%。提出的引入区域内部像素标记一致性的全卷积网络模型,可以有效捕捉区域内部像素特征一致性的上下文信息,能有效纠正全卷积网络模型在区域内部像素分类中的冲突,获得区域一致较好的分类结果,从而改善图像的语义标注效果。  相似文献   

13.
充分利用视频的信息以及解码去除冗余信息是视频摘要生成的关键.提出了一种基于多模态语义分组的视频摘要生成模型(VMSG).首先,该模型使用3D ResNet神经网络和残差神经网络来提取3D和2D特征;然后把音频信息与视频的分类信息加入多模态的框架中进行编码,得到多模态的特征之后,需要对其进行解码;为了减少视频帧的冗余信息,不同于按帧分组的解码模式,VMSG使用了一种新颖的语义分组方式进行解码,将相同语义的视频分为一个语义组进行解码,预测下一个单词.实验表明,与当前一些最先进的模型相比,VMSG具有更好的摘要生成性能,其生成的视频摘要更加客观丰富.  相似文献   

14.
探讨了如何有效地利用互联网上大规模的图像和文本信息以数据驱动的方式来实现图像的自动标注,并提出了一种基于语义相关区域搜索的图像自动标注框架.该框架首先利用人工建立的视觉和文本知识库Image-Net来训练一组弱分类器;然后将学习好的弱分类器作用于分割后的图像区域块生成Region-level的语义特征表示用以在大规模的图像数据库中进行相关图像区域的搜索,最后从搜索结果的文本描述中通过聚类挖掘的方式产生最终的图像标注结果.对比于image-level的底层特征表示,基于分类学习的区域模块具有更强的语义表达能力和更好的鲁棒性,更容易抓住图像本身包含的多个目标的多重语义;从而使得该框架兼具了大规模数据驱动和传统基于分类算法的优点.大量web图像和公认的测试数据集上进行的实验结果证明了本文提出框架的有效性.  相似文献   

15.
近年来,深度卷积神经网络应用于图像语义分割领域并取得了巨大成功。本文提出了一个基于RGB-D(彩色-深度) 图像的场景语义分割网络。该网络通过融合多级RGB网络特征图和深度图网络特征图,有效提高了卷积神经网络语义分割的准确率。同时,本文利用带孔的卷积核设计了具有捷径恒等连接的空间金字塔结构来提取高层次特征的多尺度信息。在SUN RGB-D数据集上的测试结果显示,与其它state-of-the-art的语义分割网络结构相比,本文所提出的场景语义分割网络性能突出。  相似文献   

16.
近年来,深度卷积神经网络应用于图像语义分割领域并取得了巨大成功。提出了一个基于RGB-D(彩色-深度)图像的场景语义分割网络;该网络通过融合多级RGB网络特征图和深度图网络特征图,有效提高了卷积神经网络语义分割的准确率。同时,利用带孔的卷积核设计了具有捷径恒等连接的空间金字塔结构来提取高层次特征的多尺度信息。在SUN RGB-D数据集上的测试结果显示,与其他state-of-the-art的语义分割网络结构相比,所提出的场景语义分割网络性能突出。  相似文献   

17.
深度学习由于其强大的非线性拟合能力,已经被广泛应用于无人驾驶控制器训练领域.然而,由于其训练过程需要大量标注数据,耗费大量人力物力,且人为采集的数据很难覆盖危险工况,导致训练的模型泛化能力较差,影响了深度学习控制器的性能提升.本研究提出一种从虚拟世界采集样本,将训练模型向真实世界泛化的端对端卷积神经网络(CNN)控制器训练框架.为缩小虚拟和真实世界的差距,本研究以语义分割图像作为媒介,将虚拟和真实图像分别转化为语义分割图像用于训练和测试.结果表明,虚拟到现实训练得到的控制器可以较好地跟随道路变化趋势,经权值微调后预测输出与人类驾驶员操作相近,最大平均绝对误差和均方根误差分别为1.693 9°和2.885 0°,平均绝对百分比误差在5%以内.  相似文献   

18.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

19.
多模态图像是同一目标的多种图像,面向多模态图像的子空间投影是机器视觉领域的热门研究课题,然而已有的多模态子空间投影仅仅利用投影方向来实现测试样本的子空间投影,忽略了测试和训练样本间的近邻关系,这种关系能够有效增强识别性能。为此,基于相关分析理论和图的光滑性准则,提出了一种新的广义辅助相关投影方法,即多模态广义辅助相关分析,该方法能够从多模态训练样本中学习每个模态对应的相关投影方向,并利用光滑性辅助的广义优化模型,显示地嵌入了测试和训练样本之间的局部结构信息,从而有效增强了相关特征的鉴别力。大量的实验结果已经展示了该方法的优越性。  相似文献   

20.
基于卷积神经网络的图像分类算法的优势是传统方法无法比拟的。卷积神经网络利用其设计好的网络结构和权值共享的特点,能够从数量庞大的训练数据中学习图像底层到高级语义的抽象特征,而且端到端的学习省去了在每一个独立学习任务执行之前所做的数据标注。多年来,卷积神经网络经过科研人员的探索和尝试,从最开始的多层神经网络模型,演变出多种优化结构,性能不断提高。本文介绍了基于卷积神经网络图像分类算法的研究进展,叙述了卷积神经网络在图像分类中的经典模型和近年来的改进方法,并对各个模型进行分析,展示各种方法在ImageNet公共数据集上的性能表现,最后对基于卷积神经网络的图像分类算法的研究进行总结和展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号