首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
多模态数据的急剧增长带来了跨模态检索的应用需求,促进了对跨模态检索方法的研究。本文追溯该领域最新进展,跟踪并深入研究国内外基于表示学习的跨模态检索方法,对跨模态检索问题进行定义并梳理该领域常用技术方法、主流模型、常用数据集、评价方法和面临的主要挑战。主要从统计相关分析、图正则化和度量学习3方面介绍基于表示学习跨模态检索方法,并分析其优缺点。为了分析上述方法的优劣性,实验分别在4个数据集上复现14种方法进行对比评价。实验结果表明:基于统计相关分析方法训练效率较高且易于实施;基于图正则化方法通过挖掘模态内和模态间的相似性,实现语义关联;基于度量学习方法是在公共子空间中尽可能保留数据语义相似/不相似的信息。本文介绍基于表示学习的跨模态检索方法的研究现状,为跨模态检索方法研究提供参考。  相似文献   

2.
跨模态检索是指给定一种模态的查询词,返回与之语义相关的其他模态关联词的一种检索方法。现有工作主要集中监督式跨模态检索方法研究,而实际应用中样本标签少,样本标签获取成本高。为此,提出一种图约束的半监督对抗跨模态检索方法(SS-ACMR)。该方法通过对无标签样本建立图作为约束条件来学习公共子空间表示。具体而言,在对抗学习框架下:1)对无标签样本,根据样本之间欧式距离构建图,希望相似样本的公共子空间表示是相似的; 2)对有标签样本使用传统的对抗跨模态检索方法进行学习; 3)无标签样本和有标签样本在对抗学习框架下共同学习公共子空间的表示。Wikipedia数据集和NUSWIDE-10k数据集上的实验结果表明:本文的方法得到了和现有监督跨模态检索方法相当的检索结果,远好于现有半监督跨模态检索方法。  相似文献   

3.
网络图像的文本和图像之间有较强的相关性,传统基于内容的图像检索方法往往忽视文本和图像的相关性,而跨模态检索中,文本和图像的底层特征独立获得,并未有效利用两模态之间的语义关联性,基于此,本文提出了一种跨模态语义增强的图像检索方法(CSR),协同约束文本底层特征的线性判别分析项及两模态的典型相关分析项,使得文本语义增强的同时其强语义性通过协同约束迁移到图像特征中,最后通过多类逻辑回归获得文本和图像语义特征,用文本语义特征正则化图像语义特征,进一步提高图像特征的语义判别性。在Wikipedia和Pascal Sentence数据集上进行实验,显示本文方法能有效提高图像检索的平均查准率。  相似文献   

4.
针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征子网的部分隐层权重;最后,连接线性分类器并与标签信息进行判别训练。在公开数据集上采用平均精度(mAP)作为评价指标进行实验。结果表明:SPCMR方法能充分利用跨模态间的语义信息,有效提升图文检索的精度。  相似文献   

5.
跨模态实体分辨旨在从不同模态的数据中找到对同一实体的不同客观描述.常用的跨模态实体分辨方法通过将不同模态数据映射到同一空间中进行相似性度量,大多通过使用类别信息建立映射前后的语义联系,却忽略了对跨模态成对样本信息的有效利用.在真实数据源中,给大量的数据进行标注耗时费力,难以获得足够的标签数据来完成监督学习.对此,提出一种基于结构保持的对抗网络跨模态实体分辨方法(Structure Maintenance based Adversarial Network,SMAN),在对抗网络模型下构建模态间的K近邻结构损失,利用模态间成对信息在映射前后的结构保持学习更一致的表示,引入联合注意力机制实现模态间成对样本信息的对齐.实验结果表明,在不同数据集上,SMAN和其他无监督方法和一些典型的有监督方法相比有更好的性能.  相似文献   

6.
跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术。通过分析跨模态检索的实际需求,给出了跨模态检索问题的定义,综述了目前主流跨模态检索方法的核心思想,列举了常用数据集与评价方法,最后分析了跨模态检索存在的问题以及未来研究趋势。  相似文献   

7.
为了解决计算机深度学习时标注数据工作量大、准确度不高、耗时耗力等问题,需要将预先训练好的模型中的数据进行跨领域跨任务迁移学习。基于对不同数据集的迁移效果的研究,试验时将视觉领域中表现良好的ImageNet预训练模型迁移到音频分类任务,通过剔除无声部分、统一音频长度、数据转换和正则化处理这4个步骤,采用经典图像增强和样本混淆两种数据增强方法,以5种不同的方式训练数据集,实验证明:ImageNET目标训练模型的跨领域迁移学习效果显著,但源领域的模型效果和目标领域的最终效果并没有必然联系,且使用同领域相似数据分布的数据集的预训练效果比ImageNet上的预训练效果更差。  相似文献   

8.
为了解决目前医学图像检索领域不能有效缓解“语义鸿沟”的问题,提出基于图理论学习模型的图像自动标注方法.首先讨论了医学图像的标注问题,总结了现有关医学图像标注的研究工作.以胃窥镜图像为具体研究对象,针对图学习模型中的图像-标注词间的关系提取以及图像相似度计算进行了详细分析,并有效地融合进医生的诊断信息作为图像的高级语义特征,更有效地计算出图像间相似度.最后,在Toy data数据集和临床胃窥镜图像集上进行了一系列的实验,结果表明本文方法优越于传统图像标注方法.  相似文献   

9.
针对跨模态信息检索的策略和核心问题,从提升检索性能的角度,分析了多视角对称非负矩阵分解方法用于跨模态检索的优势,提出了一种新的基于对称非负矩阵分解的跨模态检索框架。首先在Wikipedia、Pascal公开数据集上习得一致的子空间表示;然后基于该子空间,设计了一种实时样本在子空间中的投影方法。与典型相关分析、语义匹配和偏最小二乘回归相比,在MAP和PR曲线这2个指标上,本文所提出的方法具有最优的性能表现,表明了该方法应用于跨模态信息检索任务中的潜力。  相似文献   

10.
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。  相似文献   

11.
针对跨模态检索中成对或三元组样本的方法构造了高度冗余且信息量少的样本对问题,提出了基于批损失的跨模态检索方法(BLCMR):首先,引入批损失,考虑了嵌入样本的相似性,有效地保持了跨模态样本的不变性;然后,引入迭代方法来修正预测的类别标签,有效地区分了样本的语义类别信息. 在3个公开的数据集(Wikipedia、Pascal Sentence和NUS-WIDE-10k)上的实验结果表明:BLCMR方法能够拉近跨模态样本间的距离,有效地提升最终的跨模态检索精度.  相似文献   

12.
针对现有跨模Hash检索方法不能有效消除不同模态数据间语义差异的问题,提出一种新的基于稀疏编码Hash的检索方法,解决了图像低层视觉特征和高层语义之间的语义差异,改善了跨模检索的效果.使用稀疏编码进行跨模相似性检索,首先使用稀疏编码获取图像与文本的显著特征和隐含概念,然后将学习到的隐含语义特征映射到共同的抽象空间中,再通过迭代机制找到多模态数据特征表示间的相关性,最后通过高层语义抽象空间的量化得到统一的Hash编码.  相似文献   

13.
以软件重用为背景提出基于语义和结构的UML类图检索.构建了UML类图的重用模型,定义了存储UML类图的重用库结构.提出将本体的概念语义距离应用到UML类图的语义相似性度量和使用图表示UML类图的结构进行结构相似性度量.基于检索流程形式化检索需求,提出了UML类图的检索算法.基于提出的衡量标准,从语义、结构和混合三种检索类型对提出的算法进行了验证.实验结果表明,所提出的检索算法在检索质量和检索效率上要优于其他方法.  相似文献   

14.
面向财税领域非事实型问题, 提出基于语义检索的方法来抽取答案。首先使用领域知识库对问题及领域文档进行语义标注, 引入语义相似度特征提高法规及案例的检索准确率; 其次使用排序学习算法融合领域文本的多种特征对法规检索结果优化; 最后使用法规特征对案例检索结果进行筛选, 并从相似案例中抽取相应答案。在真实数据集上的测试结果表明, 该方法在准确率和效率上比基准方法有显著提升。  相似文献   

15.
考虑到句法结构与语义结构之间的紧密联系, 尝试将句法信息融入UCCA语义分析模型中来增强语义分析的性能。基于目前性能最好的基于图的 UCCA语义分析模型, 提出并比较4种不同的融入依存句法信息的方法。采用SemEval-2019国际评测语义分析任务的英文数据集进行实验, 在本领域和跨领域两个数据集上的结果均表明, 句法增强的方法能够给显著地提高UCCA分析性能。引入BERT特征后, 句法信息仍然可以提供一定的帮助。  相似文献   

16.
何沛  王萌  王卓  卢光云 《广西科学》2022,29(4):691-699
在跨模态检索任务中,哈希方法由于其检索效率高效、储存成本低廉而被广泛应用。但是,这些方法很少关注如何去弥补主体网络将高维特征转换为哈希码的过程中所丢失的特征信息。为解决这些问题,本文提出了一种特征增强对抗跨模态哈希(Feature Boosting Adversarial Hashing for Cross-Modal,FBAH)方法。FBAH方法将子空间学习与对抗学习相结合,来减少不同模态数据的差异性。另外,构造一种类残差模块,它可以将筛选出具有区别性的特征绕过主体网络直接输入到哈希空间进行特征增强。这样,生成的哈希码能够具有更多的原始特征信息。最后,通过带有分支网络的线性分类器在标签空间进行两种方式的预测,并最小化与真实标签的差距来保证语义的不变性。本文选择两个跨模态检索任务中常用的大型数据集进行大量实验,结果表明FBAH方法的性能优于目前7种较为先进的跨模态哈希方法。  相似文献   

17.
针对有监督的跨模态哈希检索存在计算成本高及准确度不高的问题,提出了一种标签嵌入子空间的跨模态离散哈希学习方法,将数据信息和标签信息同时嵌入到公共子空间中,通过以带标签信息的语义特征逼近公共子空间、并生成低松弛的离散哈希码,降低了计算成本,快速生成了具有丰富语义的公共子空间.经3个标准数据集对比实验,结果表明其准确率均优于被比较的方法.  相似文献   

18.
针对医疗信息系统中传统科室推理方法存在的计算效率低下、推荐效果欠佳与知识库难于维护等问题,提出了基于词向量句子相似度量的医疗科室推荐方法.该方法采用深度学习工具构建医疗知识库词向量模型,以词向量代替语义词典检索或词频统计来实现医疗问答对的相似度量,建立基于句子相似度量的医疗科室推荐框架.通过专业医疗在线问医平台真实问答数据的实验,结果表明,与传统科室推理方法相比较,该方法具有更高的推荐准确率与工程可行性.  相似文献   

19.
制造业在设计、生产、销售和服务环节中产生了文本、图像、音视频等海量多源异构数据,高效地管理与利用这些数据资源为制造业再生产创造价值是当前制造企业面临的重大难题.传统的数据存储与检索系统将多模态数据按不同形式或模态进行分类并单独处理,导致不同模态的数据之间缺乏语义关联(文本、图像、音视频数据之间无法互检),无法支持制造企业的设计、服务等业务流程的智能化.设计并实现了一种面向文本、图片等多源异构数据的跨模态存储与检索系统,实现智能制造多源异构数据的高效管理与检索.具体地,该系统将制造企业生产运营过程中产生的多源异构数据投影到统一的高维语义空间进行表示产生语义向量,并按不同的查询需求将数据存储到不同的模式中;其次,该系统设计了三级结构+分层联通朴素构图算法的高效检索方法,将多源异构数据按照语义向量进行索引,以满足制造业用户的语义查询需求.在flickr30k数据集上进行了实验,实验结果表明:(1)该系统可支持百万级别的跨模态数据存储与检索;(2)百万级别数据下系统检索速率为毫秒级;(3)检索的正确率比现有的向量检索方法更高.  相似文献   

20.
语义相似计算是自然语言处理领域一个常见问题,现有的基于深度学习的语义相似计算模型大多数是通过卷积网络或者长短时记忆模型来提取语义特征,但是这种语义特征的提取方式存在语义信息丢失的问题。提出两点改进传统深度学习模型在提取语义特征时的语义丢失现象。首先是改进注意力相互加权模型。基于相互加权方式做出改进,使用多个加权权重矩阵加权语义,同时提出新的正则项计算方法。其次在语义相似计算模型中引入强化学习的方法对文本进行自动分组处理,在语义相似计算领域最常用的Siamese Network模型上使用强化学习算法,改善长短时记忆模型在提取句子的语义时所面临的语义丢失现象。通过实验验证,改进的方法处理中文句子有不错的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号