首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
近年来,多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明,多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式,包括对比学习,掩码自监督等,在大规模的图文相关性数据上进行训练,通过学习模态自身与模态间的知识先验,使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代,本文介绍了视觉多模态领域基于Transformer的相关工作;对主流多模态学习方法的发展脉络进行梳理,分析了不同方法的优势和局限性;总结了多模态预训练的各种监督信号及其作用;概括了现阶段主流的大规模图像-文本数据集;最后简要介绍了几种相关的跨模态预训练下游任务。  相似文献   

2.
基于视觉Transformer的自监督模型掩码自编码器因其优秀的全局特征捕捉能力,被广泛应用于遥感图像分类领域。但该模型存在图像重建训练时局部上下文语义信息易丢失从而限制其分类精度的进一步提升。针对以上问题,本文提出了融合掩码重建和对比学习的三阶段自监督遥感图像分类新模型——对比掩码自编码器。第一阶段进行掩码重建预训练,以提取遥感图像全局特征;第二阶段则通过对比学习中的正负样本补充第一阶段掩码建模过程中丢失的局部上下文信息;最后通过训练线性分类器完成特征分类。在公开遥感图像数据集AID和NWPU-RESISC45上将本文方法与主流自监督分类方法、监督分类方法进行对比实验。实验结果表明,该模型在两个数据集上分类精度分别达到95.37%和95.14%,性能优于DINO、MoCo、SSGANs等主流自监督模型,接近GLANet、CANet、MG-CAP (Sqrt-E)等主流监督模型,具有良好的应用价值。  相似文献   

3.
无监督域自适应行人重识别在智能监控中发挥着重要作用,并引起了研究者的广泛关注.尽管目前的研究已经取得了较大进步,但不同数据集之间的域偏移问题给行人重识别带来极大挑战.研究发现,在连续时间里,同一摄像机视角下的行人图像具有相同的风格,如果将这种风格信息从行人图像中分离出去,将有效缓解由图像风格差异引起的域偏移问题.为此,提出一种低秩先验引导的域不变信息分离的字典学习方案.根据风格信息的低秩先验性,将行人图像特征中的风格信息和行人身份信息分离开来,根据同一身份行人属性的域不变性建立视觉特征与属性之间的联系,缓解域偏移所带来的影响,通过自训练策略来调整学习参数.实验表明,方法的性能在很多数据集上超过了传统的无监督域自适应行人重识别方法以及部分基于深度学习的无监督域自适应行人重识别方法.  相似文献   

4.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

5.
行人检测是计算机视觉领域中的研究热点,其实质是一个二分类问题.目前基于统计的行人检测技术已取得了一定进展,但大都需要大量的训练数据.针对这一问题,提出了一种基于迁移学习的半监督行人分类方法:首先基于稀疏编码,从任意的未标记样本中,学习到一个紧凑、有效的特征表示;然后通过迁移学习,将学习到的特征表示方法迁移到行人分类中.在MIT行人数据库上的实验结果表明:该方法能有效地刻画出行人的特征,提高行人分类的性能,在标记样本少的情况下仍具有良好的分类效果,因此可应用于行人检测中.  相似文献   

6.
网络图像的文本和图像之间有较强的相关性,传统基于内容的图像检索方法往往忽视文本和图像的相关性,而跨模态检索中,文本和图像的底层特征独立获得,并未有效利用两模态之间的语义关联性,基于此,本文提出了一种跨模态语义增强的图像检索方法(CSR),协同约束文本底层特征的线性判别分析项及两模态的典型相关分析项,使得文本语义增强的同时其强语义性通过协同约束迁移到图像特征中,最后通过多类逻辑回归获得文本和图像语义特征,用文本语义特征正则化图像语义特征,进一步提高图像特征的语义判别性。在Wikipedia和Pascal Sentence数据集上进行实验,显示本文方法能有效提高图像检索的平均查准率。  相似文献   

7.
行人重识别任务旨在跨相机下检索出特定的行人图像.虽然行人重识别任务得到了快速发展,在检索精度上得到很大的提升,但是依然面临着行人重识别模型在新的数据集上泛化能力有限,以及在无监督领域自适应任务中无法避免的伪标签噪声的问题.针对目前无监督领域自适应任务中由于聚类算法的局限性而导致伪标签出现噪声的问题,提出一种基于多度量融合的无监督领域自适应行人重识别算法.具体而言,多度量融合算法是在目标域上使用DBSCAN(density-based spatial clustering of applications with noise)聚类算法对特征空间的行人特征进行聚类时,通过多个特征相似度度量函数线性加权的方式,计算行人之间的特征相似度,从而在目标域上生成更为准确的伪标签,之后利用该伪标签微调模型.通过在Market1501→DukeMTMC-reID和DukeMTMC-reID→Market1501上大量的实验,证明多度量融合算法有效提升了行人重识别模型在无监督领域自适应任务上的检索精度.  相似文献   

8.
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文...  相似文献   

9.
基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.  相似文献   

10.
为了充分利用人脸图像的局部信息、改善现有基于整体特征的彩色人脸识别算法的识别率,提出了一种基于局部特征和集成学习分类器的鲁棒彩色人脸识别算法.在特征提取阶段,使用自适应四元数pseudo-Zernike矩(AQPZMs)来描述图像子块的特征.对于具有较大熵的图像子块使用较高阶次的四元数pseudo-Zernike矩(QPZMs)提取特征,反之则使用较低阶次的QPZM s.在匹配识别阶段,使用集成学习分类器进行判别.针对不同彩色人脸图像库的测试结果表明,当人脸图像受到光照、表情等因素影响时,与采用QPZMs或者四元数二维主成分分析(Q2DPCA)进行整体特征提取的识别算法相比,所提算法的识别率更高.  相似文献   

11.
度量学习是机器学习中的重要研究问题之一,针对实际应用中的噪声数据,如何建立一个鲁棒的度量仍是一个挑战.本文将稀疏表示、特征学习与分类模型相结合提出了一种新的基于鲁棒回归度量学习(RRML)的算法并将其应用于图像分类.算法对最优特征子空间和稀疏表示进行联合学习,在更具判别性的低维表征空间中,通过稀疏表示有效地编码数据的局部结构信息,进而更好地揭示数据的内在鉴别信息,并以此指导该模型学习到最优的投影矩阵;同时对噪声矩阵和投影矩阵的行稀疏约束,可以极大降低噪声的影响.实验结果表明所提算法在图像分类准确率和鲁棒性方面均优于其他对比算法.  相似文献   

12.
基于自组织特征映射的图像分割算法研究   总被引:2,自引:0,他引:2  
提出了一种基于自组织特征映射的图像分割算法,实现了计算机对图像的初步理解,从而在某种程度上模拟了生物的初级视觉功能.通过分析研究Kohonen网络的自组织特征映射过程,构造了基于Kohonen网络的图像分割神经网络方法,应用自组织特征映射方法将原始图像分割为有序化的相关特征区域.最后结合图像分割的特点对算法进行了改进,结合有监督的学习算法,使得图像的分割最终在先验知识的指导下进行.实验结果表明将Kohonen网络应用于图像分割使得算法具有很强的自适应性,能够在很大程度上避免背景及噪声对分割的影响.  相似文献   

13.
典型相关分析与多伯努利相关模型的图像标注   总被引:1,自引:0,他引:1  
文章提出一种基于图像的视觉词袋与文本标注的典型相关分析与分割无关的多伯努利相关模型的自动图像标注算法。在图像标注与分类任务中,矢量量化图像局部描述子得到的视觉词袋特征已显示了其鲁棒性与可区分性,文中对视觉词袋与文本特征作典型相关分析,确保投影变换后新的视觉特征与文本特征的相关性最大化,从而有效地在视觉与文本2种模态中建立联系,契合了自动图像标注的主旨。文中还提出了一种简化的多伯努利相关模型,实验结果证明了典型相关分析比概率潜藏语义分析更适合于图像自动标注,也证明了简化的多伯努利相关模型的有效性。  相似文献   

14.
探讨了如何有效地利用互联网上大规模的图像和文本信息以数据驱动的方式来实现图像的自动标注,并提出了一种基于语义相关区域搜索的图像自动标注框架.该框架首先利用人工建立的视觉和文本知识库Image-Net来训练一组弱分类器;然后将学习好的弱分类器作用于分割后的图像区域块生成Region-level的语义特征表示用以在大规模的图像数据库中进行相关图像区域的搜索,最后从搜索结果的文本描述中通过聚类挖掘的方式产生最终的图像标注结果.对比于image-level的底层特征表示,基于分类学习的区域模块具有更强的语义表达能力和更好的鲁棒性,更容易抓住图像本身包含的多个目标的多重语义;从而使得该框架兼具了大规模数据驱动和传统基于分类算法的优点.大量web图像和公认的测试数据集上进行的实验结果证明了本文提出框架的有效性.  相似文献   

15.
目标跟踪是计算机视觉领域中具有挑战性的问题.提出了一种基于稀疏表示的判别式目标跟踪算法,用于在复杂场景中对运动目标进行鲁棒跟踪.该算法首先对目标进行滑动窗口稠密采样,构建目标的稀疏表示字典,然后将目标表示为该字典的稀疏编码,从而构造具有判别力的目标特征表示.在跟踪过程中,将目标跟踪问题看作是背景与目标的判别性问题,使用目标和背景的特征表示在线训练朴素贝叶斯分类器,根据分类结果得到目标的跟踪结果.为了适应场景及目标外观变化,设计动态更新机制对字典与分类器进行在线更新.和传统基于稀疏表示的跟踪方法相比,该算法将稀疏表示与判别式分类器结合,利用稀疏表示获得具有判别力的目标特征表示,而在线的朴素贝叶斯分类器则确保了目标跟踪的快速有效.与流行的多种跟踪算法比较结果表明,本算法能够在复杂条件下实现目标的鲁棒跟踪.  相似文献   

16.
多聚焦图像融合是图像融合的一个重要分支,在显微成像等方面具有广泛的应用.针对多聚焦融合中存在的纹理细节不清晰、聚焦区域误判等问题,本文从空间及通道信息全局关注的角度出发,结合Swin Transformer中的移动窗口自注意力机制和深度可分离卷积设计了一个全局信息编码-解码网络,采用综合损失函数进行图像重构任务的无监督学习;从特征邻域信息重要性的角度出发,引入了改进的拉普拉斯能量和函数在特征域进行图像聚焦属性的判别,增强图像聚焦区域判别的细粒度效果.与7种经典图像融合算法比较,本文算法在定性和定量分析中均取得了先进的融合性能表现,对原始图像的聚焦区域信息具有更高的保真效果.  相似文献   

17.
作为一种跨摄像头的检索任务,行人重识别会受到不同相机视角造成的图像样式变化的影响。近年来,许多算法通过神经网络直接从原始输入图片中学习相应特征,虽然这些特征能够很好地描述全局行人,但忽略了许多局部细节信息,在复杂的场景下容易出现误识别。针对此问题,研究了一种基于多任务学习的新的特征表示方法,采用成对输入的孪生网络结构,将局部最大出现特征(local maximal occurrence,LOMO)和深层特征一起送入网络并映射到单一的特征空间中进行训练,形成一种新的网络模型TDFN(traditional and deep features fusion network)。利用神经网络自我学习特性,联合多个任务的损失函数更新网络,使得深层特征学习到更多与手工局部特征互补的细节信息。实验表明,新特征的平均精度mAP和Rank-1精度都优于直接从孪生网络提取的全局描述子。  相似文献   

18.
网络对齐是一项极具挑战性的任务,旨在识别不同网络中的等效节点,由于网络的复杂性和监督数据的缺乏,传统方法的计算复杂度高,精度低.近年来,图神经网络(Graph Neural Networks,GNN)在网络对齐算法中得到了越来越多的应用.已有研究表明,与传统方法相比,使用GNN进行网络对齐可以降低计算复杂度并提高对齐精度,然而,基于GNN的方法的性能受到训练数据质量和网络规模的限制.为此,提出一种快速鲁棒的无监督网络对齐方法 FAROS,采用在粗图上训练的GNN模型进行网络对齐.使用粗图进行GNN训练的优点:(1)显著减少训练数据,最大限度地减少GNN反向传播过程中必须更新的权重参数,减少训练时间;(2)缓解数据噪声,能提取网络最重要的结构特征,便于GNN获得更鲁棒的嵌入向量.在训练过程中,FAROS通过引入基于伪锚节点对的自监督学习来提高对齐精度.在真实数据集上的实验结果验证了FAROS算法的有效性,其在保持较好精度的同时,比同类方法快几个数量级.  相似文献   

19.
基于深度学习模型的图像质量评价方法   总被引:1,自引:0,他引:1  
为了有效提取与视觉感知质量高度相关的图像特征,改进图像质量评价方法,在深度学习的框架下,提出一个全新的卷积神经网络IQF-CNN结构,能自动学习判别性更强的图像质量特征,并利用学习的特征进行图像质量评价.同时,该算法采用局部亮度系数归一化、dropout等技术进一步提高网络学习能力.实验结果表明:该算法能较准确地评估五种常用的图像失真,尤其在JPEG压缩、JPEG2000压缩和高斯模糊图像失真上与人眼主观感知质量具有很高的一致性,整体性能比较优于其他经典评价方法.  相似文献   

20.
在线商品跨媒体检索是电子商务领域的研究热点,增强特征判别性以改善检索性能是其核心问题。引入Tag-rank模型计算单词的绝对排序和相对排序权重,以准确刻画单词在文本中出现位置的统计特性,抑制噪声干扰并提升关键词权重,从而增强文本特征判别性,最终改善跨媒体检索性能。实验表明:在文本检索图像中,相对排序类模型和绝对排序类模型检索性能平均提升6.58%和4.99%。在图像检索文本中,若合理选取图像特征检索性能也有提升。所设计的后融合策略能进一步改善检索性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号