首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有跨模Hash检索方法不能有效消除不同模态数据间语义差异的问题,提出一种新的基于稀疏编码Hash的检索方法,解决了图像低层视觉特征和高层语义之间的语义差异,改善了跨模检索的效果.使用稀疏编码进行跨模相似性检索,首先使用稀疏编码获取图像与文本的显著特征和隐含概念,然后将学习到的隐含语义特征映射到共同的抽象空间中,再通过迭代机制找到多模态数据特征表示间的相关性,最后通过高层语义抽象空间的量化得到统一的Hash编码.  相似文献   

2.
针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征子网的部分隐层权重;最后,连接线性分类器并与标签信息进行判别训练。在公开数据集上采用平均精度(mAP)作为评价指标进行实验。结果表明:SPCMR方法能充分利用跨模态间的语义信息,有效提升图文检索的精度。  相似文献   

3.
在信息检索服务中跨媒体检索技术日益重要,为了提高其检索的准确度,需要加强对不同模态之间语义信息的相互关系的学习和分析.早期的跨媒体检索技术侧重于对多媒体信息的底层特征的分析,而忽略了多媒体信息的底层特征与高层语义方面存在的联系.本文分析了多媒体信息在底层特征与高层语义之间的关联,根据不同模态对象的底层特征空间构造出同构的高层语义空间,将集成学习的方法应用到跨媒体检索之中.提出了Bagging-SM的方法对不同模态的多媒体对象进行语义匹配.实验结果表明该方法相比于其他方法,对跨媒体检索结果的准确度有很大的提升.  相似文献   

4.
为了提高跨模态足迹检索精度,提出一种基于注意力双分支深度卷积神经网络的检索方法.该方法以赤足足迹的光学和压力2个模态图像为研究对象,采集并构建了一个包含138人5520幅足迹图像的跨模态检索数据集;在网络的特征提取模块采用ResNet50作为基础网络搭建双分支结构,并引入空间注意力机制,以提取各模态具有辨别性的特征;在网络的特征嵌入模块,通过部分参数共享学习跨模态共享空间;在双约束损失模块采用交叉熵损失(ID loss)和异质中心损失(HC loss)以增大跨模态足迹特征的类间差异,减小类内差异.实验结果表明:互检索模式下的平均精度均值(mAP)均值和Rank1均值分别为70.83%和87.50%,优于其他一些跨模态检索方法.采用注意力双分支网络模型能够有效进行跨模态足迹检索,可以为现场足迹对比鉴定等应用提供理论基础.  相似文献   

5.
目前基于新闻内容的假新闻检测方法没有考虑到不同模态更高层的语义关联,缺少可以依据的信息对新闻进行判断,从而缺乏对有重要辨别特征的新闻的社交网络信息进行有效使用.针对这个问题,提出了基于新闻内容的假新闻检测方法,通过提取文本、图像和视频等多模态新闻的高层语义特征,分析不同模态高层语义信息,设计跨模态主题一致性和跨模态情感一致性计算方法 .在此基础上,设计了一种跨模态内容语义一致性的假新闻检测模型MMCSC(multi-modal feature content semantic consistency).实验证明,相比于传统方法,所提出的MMCSC有较好的检测效果.  相似文献   

6.
基于文本的行人检索任务旨在以文本为查询在大规模数据库中检索出目标行人的图像,在处理社会公共安全问题中具有较高的实用价值.不同于常规的跨模态检索任务,该任务中所有的类别都是行人,不同行人之间的外观差异较小,难以辨别;此外由于拍摄条件的限制图像质量通常较差,因此如何有效地提取更鲁棒、更具有判别性的视觉特征是该任务的一项重要挑战.为了应对这一挑战,设计了一种基于自监督学习的文本行人检索算法,以多任务学习的形式将自监督学习与基于文本的行人检索任务相结合,对两种任务同时进行训练,共享模型参数.其中,自监督任务作为辅助任务,旨在为行人检索任务学习到更鲁棒、更具有判别性的视觉特征.具体来说,首先提取视觉和文本特征,并以图像修复作为自监督任务,旨在学习更丰富的语义信息,且对遮挡数据具有更好的鲁棒性;基于行人图像的特殊性,进一步设计了一种镜像翻转预测任务,通过训练网络预测图像是否经过了镜像翻转学习具有判别性的细节信息,以帮助行人检索任务更好地区分难分样本.在公开数据集上进行的大量实验证明了该算法的先进性和有效性,将行人检索的Top-1准确率提升了2.77%,并且实验结果显示两种自监督任务存在一定的互补性...  相似文献   

7.
多模态数据的急剧增长带来了跨模态检索的应用需求,促进了对跨模态检索方法的研究。本文追溯该领域最新进展,跟踪并深入研究国内外基于表示学习的跨模态检索方法,对跨模态检索问题进行定义并梳理该领域常用技术方法、主流模型、常用数据集、评价方法和面临的主要挑战。主要从统计相关分析、图正则化和度量学习3方面介绍基于表示学习跨模态检索方法,并分析其优缺点。为了分析上述方法的优劣性,实验分别在4个数据集上复现14种方法进行对比评价。实验结果表明:基于统计相关分析方法训练效率较高且易于实施;基于图正则化方法通过挖掘模态内和模态间的相似性,实现语义关联;基于度量学习方法是在公共子空间中尽可能保留数据语义相似/不相似的信息。本文介绍基于表示学习的跨模态检索方法的研究现状,为跨模态检索方法研究提供参考。  相似文献   

8.
多模态数据的急剧增长带来了跨模态检索的应用需求,促进了对跨模态检索方法的研究。本文追溯该领域最新进展,跟踪并深入研究国内外基于表示学习的跨模态检索方法,对跨模态检索问题进行定义并梳理该领域常用技术方法、主流模型、常用数据集、评价方法和面临的主要挑战。主要从统计相关分析、图正则化和度量学习3方面介绍基于表示学习跨模态检索方法,并分析其优缺点。为了分析上述方法的优劣性,实验分别在4个数据集上复现14种方法进行对比评价。实验结果表明:基于统计相关分析方法训练效率较高且易于实施;基于图正则化方法通过挖掘模态内和模态间的相似性,实现语义关联;基于度量学习方法是在公共子空间中尽可能保留数据语义相似/不相似的信息。本文介绍基于表示学习的跨模态检索方法的研究现状,为跨模态检索方法研究提供参考。  相似文献   

9.
基于颜色自相关图的区域定位图像检索   总被引:1,自引:0,他引:1  
颜色自相关图表示了颜色的空间相关性,在图像检索方法中既有效且计算量小,但是该特征在检索前景较为清晰或背景具有较大面积单色的图像时误检率较高.针对此问题,本文提出了一种基于颜色自相关图的区域定位图像检索算法.该算法使用HSV颜色空间自相关图作为图像的底层特征,通过有效区域定位和二值位图来获得局部特征.最后,综合两种特征进行相似度量.实验结果证明,本文方法具有较高的检索精度,克服了颜色自相关图的片面性,显示了组合特征的有效性.  相似文献   

10.
针对图像检索中存在的“语义鸿沟”问题,本文提出一种语义学习模型进行图像的自动标注.首先提出连续的概率潜在语义分析(PLSA)模型及对应的参数估计算法,并利用最大惩罚似然的方法解决协方差矩阵的奇异性问题;然后,提出一个根据不同模态数据各自的特点进行处理的概率模型,该模型使用连续PLSA和传统PLSA分别建模视觉特征和文本关键词,并通过不对称学习算法发现两种模态之间共有的语义主题,从而能更精确地对未知图像进行标注.通过在分别包含5 000幅和31 695幅图像的两个标准Corel数据集上进行实验,并与几种典型的图像标注方法进行比较的结果表明,文中方法具有更高的精度和更好的效果.  相似文献   

11.
为了解决现有生物激励设计过程存在的跨领域知识获取难的问题,提出了面向生物激励设计的基于功能特征语义相关性的功能语义聚类和基于环境特征约束适应性的环境约束聚类组成的两阶段知识元聚类算法。将生物激励设计过程跨领域实例知识检索问题转化为对离散的生物领域或工程领域知识元的聚类检索。根据跨领域术语知识表示的不同确定跨领域检索功能词,执行基于功能特征语义相关性的功能语义的一阶段聚类,结合生物领域功能与环境特征约束间的相关性,完成基于不同类型环境特征约束的二阶段聚类。一方面,将模糊理论与模糊数学引入知识元聚类算法中,提出基于模糊隶属度函数的语义相似度计算方法,实现了基于功能关键字的语义聚类;另一方面,将FCM聚类算法引入到知识元聚类过程中,结合给出的不同类型环境特征约束相似性算法,提出了AFCM算法,实现了基于环境特征约束适应性的环境约束聚类。最后,开发了相应的原型系统,并且以视觉假体装置设计为例进行测试。结果表明,聚类时间和准确率得到极大改善,聚类效率得到显著提升。该算法有效地避免了跨领域知识分布的离散性,减少了设计过程中研究对象的数量,能够合理地获取已有设计知识,为深入研究奠定了基础。  相似文献   

12.
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。  相似文献   

13.
相关反馈技术是近年来在图像检索中较为重要的研究方法,通过相关反馈可以形成图像低层视觉特征与用户高层语义特征的映射关系.从机器学习的角度,介绍一种以支持向量机为分类器的新的相关反馈方法,在一定程度上解决了基于内容的图像检索中存在的由于底层特征和上层理解之间的差异而造成的“语义鸿沟”(semanticgap)问题.  相似文献   

14.
图像所含的内容丰富多彩,是用物理特征无法完整表达的.目前常用的图像检索技术是基于内容的图像检索,检索出的图像在某些程度上无法满足用户的需求.提出了一种基于颜色和形状的情感图像检索方法,讨论了图像的物理特征--颜色和形状的提取与表达.分析不同颜色、特征所激起人的不同情感的反应,建立情感库,用模糊神经网络建立底层物理特征到高层语义特征的联系,实现基于情感语义的图像检索,实现真正的以人为主导的信息检索,提高人机交互的和谐性和检索效率.  相似文献   

15.
何沛  王萌  王卓  卢光云 《广西科学》2022,29(4):691-699
在跨模态检索任务中,哈希方法由于其检索效率高效、储存成本低廉而被广泛应用。但是,这些方法很少关注如何去弥补主体网络将高维特征转换为哈希码的过程中所丢失的特征信息。为解决这些问题,本文提出了一种特征增强对抗跨模态哈希(Feature Boosting Adversarial Hashing for Cross-Modal,FBAH)方法。FBAH方法将子空间学习与对抗学习相结合,来减少不同模态数据的差异性。另外,构造一种类残差模块,它可以将筛选出具有区别性的特征绕过主体网络直接输入到哈希空间进行特征增强。这样,生成的哈希码能够具有更多的原始特征信息。最后,通过带有分支网络的线性分类器在标签空间进行两种方式的预测,并最小化与真实标签的差距来保证语义的不变性。本文选择两个跨模态检索任务中常用的大型数据集进行大量实验,结果表明FBAH方法的性能优于目前7种较为先进的跨模态哈希方法。  相似文献   

16.
基于语义内容的图像检索已成为解决图像低层特征与人类高级语义之间"语义鸿沟"的关键.笔者以性能优越的回归型支持向量机(SVR)理论为基础,结合重要的图像边缘信息及人眼视觉特性,提出了一种基于多种高级语义特征的图像检索新方法.该方法首先利用Canny检测算子提取原始图像的边缘信息,并据此得到低层纹理特征与颜色特征,同时利用SVR将低层特征映射到高级语义,以获得图像的高级对象语义.然后结合图像边缘线条方向,利用SVR将线条方向映射为高级语义,以获得图像的线条情感语义.再结合人眼视觉系统感知特性,给出基于全局主要颜色的高级颜色语义.最后根据上述多种高级语义特征进行图像检索.实验结果表明,该方法能够有效地对图像高级语义进行刻画,不仅图像匹配检索效果良好,而且具有稳定的检索性能,其对于缩小低层视觉特征与高级语义概念之间的"语义鸿沟"具有重要意义.  相似文献   

17.
跨模态检索是指给定一种模态的查询词,返回与之语义相关的其他模态关联词的一种检索方法。现有工作主要集中监督式跨模态检索方法研究,而实际应用中样本标签少,样本标签获取成本高。为此,提出一种图约束的半监督对抗跨模态检索方法(SS-ACMR)。该方法通过对无标签样本建立图作为约束条件来学习公共子空间表示。具体而言,在对抗学习框架下:1)对无标签样本,根据样本之间欧式距离构建图,希望相似样本的公共子空间表示是相似的; 2)对有标签样本使用传统的对抗跨模态检索方法进行学习; 3)无标签样本和有标签样本在对抗学习框架下共同学习公共子空间的表示。Wikipedia数据集和NUSWIDE-10k数据集上的实验结果表明:本文的方法得到了和现有监督跨模态检索方法相当的检索结果,远好于现有半监督跨模态检索方法。  相似文献   

18.
基于支持向量机语义分类的两种图像检索方法   总被引:2,自引:0,他引:2  
为了更好的解决基于内容的图像检索问题,提出了2种基于语义的图像检索方法.第1种是基于支持向量机(SVM)语义分类的图像检索方法.该方法首先提取训练图像库的底层特征信息,然后利用SVM对所提取的特征进行训练,构造多分类器.在此基础上,利用分类器对测试图像自动分类,得到图像属于各个类别的概率,实现图像检索.第2种是利用图像自动标注方法进行检索.在基于语义的图像自动标注中,先对训练集进行人工标注,对测试图像利用SVM分类器进行分类,并找到与该图像最相似的N张构成图像集,对该图像集的标注进行统计,找到关键词,从而提供概念化的图像标注以用于检索.通过在标准图像检索库和自建图像库上的实验结果表明,以上2种基于语义的图像检索方法是高效的.  相似文献   

19.
制造业在设计、生产、销售和服务环节中产生了文本、图像、音视频等海量多源异构数据,高效地管理与利用这些数据资源为制造业再生产创造价值是当前制造企业面临的重大难题.传统的数据存储与检索系统将多模态数据按不同形式或模态进行分类并单独处理,导致不同模态的数据之间缺乏语义关联(文本、图像、音视频数据之间无法互检),无法支持制造企业的设计、服务等业务流程的智能化.设计并实现了一种面向文本、图片等多源异构数据的跨模态存储与检索系统,实现智能制造多源异构数据的高效管理与检索.具体地,该系统将制造企业生产运营过程中产生的多源异构数据投影到统一的高维语义空间进行表示产生语义向量,并按不同的查询需求将数据存储到不同的模式中;其次,该系统设计了三级结构+分层联通朴素构图算法的高效检索方法,将多源异构数据按照语义向量进行索引,以满足制造业用户的语义查询需求.在flickr30k数据集上进行了实验,实验结果表明:(1)该系统可支持百万级别的跨模态数据存储与检索;(2)百万级别数据下系统检索速率为毫秒级;(3)检索的正确率比现有的向量检索方法更高.  相似文献   

20.
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号