首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
《清华大学学报》2020,25(5):636-646
In person re-IDentification (re-ID) task,the learning of part-level features benefits from fine-grained information.To facilitate part alignment,which is a prerequisite for learning part-level features,a popular approach is to detect semantic parts with the use of human parsing or pose estimation.Such methods of semantic partition do offer cues to good part alignment but are prone to noisy part detection,especially when they are employed in an off-the-shelf manner.In response,this paper proposes a novel part feature learning method for re-ID,that suppresses the impact of noisy semantic part detection through Supervised Non-local Similarity (SNS) learning.Given several detected semantic parts,SNS first locates their center points on the convolutional feature maps for use as a set of anchors and then evaluates the similarity values between these anchors and each pixel on the feature maps.The non-local similarity learning is supervised such that:each anchor should be similar to itself and simultaneously dissimilar to any other anchors,thus yielding the SNS.Finally,each anchor absorbs features from all of the similar pixels on the convolutional feature maps to generate a corresponding part feature (SNS feature).We evaluate our method with extensive experiments conducted under both holistic and partial re-ID scenarios.Experimental results confirm that SNS consistently improves re-ID accuracy using human parsing or pose estimation,and that our results are on par with state-of-the-art methods.  相似文献   

2.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

3.
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文...  相似文献   

4.
基于深度学习的监控视频树叶遮挡检测   总被引:2,自引:0,他引:2       下载免费PDF全文
结合稀疏自编码器的自动提取数据特征能力和深度置信网络较好的分类性能,提出一种基于深度学习的监控视频树叶遮挡检测方法。首先从视频中随机选取一帧图像,通过栈式稀疏自编码器主动学习视频图像的特征信息,然后采用深度置信网络建立分类检测模型,最后引入学习速率自适应调整策略对整个神经网络进行微调。该方法不需要对视频连续取帧,具有较好的图像特征主动学习能力,克服了人工提取特征能力有限的缺陷。实验结果表明,在样本量充足的条件下,使用本文方法进行监控视频树叶遮挡检测可以达到88.97%的准确率。  相似文献   

5.
无监督域自适应行人重识别在智能监控中发挥着重要作用,并引起了研究者的广泛关注.尽管目前的研究已经取得了较大进步,但不同数据集之间的域偏移问题给行人重识别带来极大挑战.研究发现,在连续时间里,同一摄像机视角下的行人图像具有相同的风格,如果将这种风格信息从行人图像中分离出去,将有效缓解由图像风格差异引起的域偏移问题.为此,提出一种低秩先验引导的域不变信息分离的字典学习方案.根据风格信息的低秩先验性,将行人图像特征中的风格信息和行人身份信息分离开来,根据同一身份行人属性的域不变性建立视觉特征与属性之间的联系,缓解域偏移所带来的影响,通过自训练策略来调整学习参数.实验表明,方法的性能在很多数据集上超过了传统的无监督域自适应行人重识别方法以及部分基于深度学习的无监督域自适应行人重识别方法.  相似文献   

6.
行人再识别是计算机视觉领域的一项重要任务,但大多数现有模型很大程度上依赖于颜色外观。针对目前很少研究解决目标人物衣服不一致的行人再识别问题,提出一种新的表征学习模型。该模型通过对抗性学习和特征分离来产生不受服装颜色或图案影响的体型特征表示。同时,由于缺乏包含同一个人服装变化的行人再识别数据集,创建了一个合成数据集来模拟服装变化。4个数据集(两个基准行人再识别数据集,一个跨模态行人再识别数据集,合成数据集)的定量和定性结果证实了该方法对几种最先进的方法的鲁棒性和优越性。  相似文献   

7.
王萍  谈正  蔡骋 《西安交通大学学报》2003,37(12):1267-1271
针对视频镜头分割处理的需求,提出了一种综合运动参数曲线法.它以由压缩域视频流中运动信息估计出的摄像机运动参数为基础,对视频流进行基于内容的分析.该方法的特点是在对视频流处理中将摄像机的运动识别与视频分割问题综合考虑,在求取帧间摄像机运动参数以及判断连续帧间的摄像机运动趋势的同时,可一并实现对视频流时域上的自动分割,以及近景镜头等的识别,对各种类型视频均采用相同的技术操作和统一的门限值,具有上佳的鲁棒性,对MPEG组织专用于内容检索的10类共计284min的标准视频进行了实验,查全率达92%~100%,查准率也高达86%以上(动画及体育片段除外),证实了所提方法的有效性。  相似文献   

8.
针对高误码率误码信道,提出了一种新型的视频误码掩错算法.该算法充分利用信息隐藏技术提供的隐蔽信道传递编码图像序列中帧内编码帧的运动信息,并利用这些运动信息在帧内编码图像中构造了时间域误码掩错算法.实验结果表明,该算法能够对因误码造成的受损图像进行逼真地掩盖。  相似文献   

9.
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。  相似文献   

10.
提出一种学习人典型运动模式的方法,并利用该方法对环境中的人的行为做出预测,协调机器人以达到与人和谐共处的导航目的.算法首先通过非重叠多摄像头采集人在环境中不同地点间的运动轨迹;其次,应用两层模糊K均值算法分别对这些运动轨迹进行空间和时间序列上的分类,并利用TSC标准对每一次分类结果进行评估;然后建立每一聚类运动模式的概率方程,依此实现对摄像头网络观测下人运动行为的预测,进而调整机器人的导航策略以达到与人和谐共处的导航目的.实验展示了该算法能够快速地利用人的运动调整其导航行为.  相似文献   

11.
视频分割是视频结构化组织的基础,提出一种结合音频和视觉信息的视频分割新方法,即先对视频作基于边变化率的初步分割,然后提取音频的MFCC及其差分系数特征,利用广义似然比(GLR)距离对音频信息进行相似性比较,并检测相应的音频变化点,在此基础上,应用间频分割点对初步的分割进行验证,获得具有一定语义内容的视频段,实验结果表明,方法简单有效,与单一的基于视觉信息的分割方法相比,获得的视频片段语义信息更为完整,同时也避免了分割的过度细碎。  相似文献   

12.
13.
针对目前H.265环路滤波器样点自适应补偿(sample adaptive offset,SAO)算法复杂度高、计算量大的问题,提出了一种基于人眼感兴趣区域的样点自适应补偿技术.人眼感兴趣区域在视频的空间域对应纹理复杂的区域,在时间域对应运动剧烈的对象.利用图像的时域和空域的二维信息,使用编码单元深度和运动矢量分别检测...  相似文献   

14.
张利  陈鹤  边桂彬  李桢 《科学技术与工程》2023,23(32):13903-13909
基于术中影像的运动感知是计算机辅助手术系统开发的重要研究内容,能够为运动补偿、软组织形变分析等应用提供有价值的信息,从而提高手术效率并增强手术安全。然而,手术影像中运动器械的遮挡降低了对局部区域估计的准确性。为解决这一难题,提出一种基于光流网络和解耦表示的运动感知方法,并结合自监督学习范式优化模型。制作了神经外科手术数据集,在PyTorch深度学习框架下对模型进行训练和验证。实验结果表明:该运动估计方法在复杂手术场景中具有稳定性强、准确度高的优点,在计算机辅助手术中具有较高的应用价值。  相似文献   

15.
陈禹  刘慧  梁东升  张雷 《科学技术与工程》2024,24(12):5051-5058
行人重识别是利用人工智能解决边防检查、人员追踪等公共安全应用问题的技术,具有从跨设备采集的图像中识别某一特定行人的能力。但是在人员追踪等问题中,往往会出现行人刻意遮挡、复杂场景环境遮挡等因素,大大提高了行人重识别的难度。针对行人重识别遮挡问题,基于ResNet50网络,结合姿态估计(Pose estimation)和转换器(Transformer)模型,提出了一种改进的行人重识别网络PT-Net,以提高遮挡条件下的行人重识别能力。该方法首先利用现有的姿态估计方法对输入图像进行关键点检测,并将关键点信息与行人特征图像结合起来生成一个基于姿态的行人特征表示;然后利用Transformer模型对基于姿态的行人特征表示编码,用来实现特征对齐和特征融合。论文基于国际公开的数据集Occluded-Duke开展实验验证,结果表明,PT-Net方法相对于基线模型,其均值精度mAP和相似度排序Rank-1指标分别提高了1.3和1.5个百分点,验证了该方法的有效性和优越性。  相似文献   

16.
将视频监控技术应用于交通信息获取与处理,解决行人安全问题,已成为智能交通系统中的一项关键技术。为精准地提取交通场景语义信息,提出了融合时域和空域信息的行人检测算法。通过相邻多帧时域变化和Canny边缘检测算法得到初始检测掩模图像,解决差值局部化和噪声问题;提取空域信息时,引入二次重构和内外标记技术对梯度图像进行修正和分水岭变换,得到空域掩模图像,有效地提高空域分割精度,消除过分割现象;最后将两者结果进行融合和形态学修正,提取出交通场景图像中的运动行人。以北京南站为例进行实验分析,结果表明,该方法能快速准确地检测到较完整的目标信息,在动态场景的行人检测取得了较好的效果。  相似文献   

17.
18.
基于文本的行人重识别模型通常依赖于全局特征对齐和局部特征对齐,但模态间和模态内的相关信息常被忽略。提出了一种基于关系挖掘的跨模态行人重识别方法,该方法包括双流主干网络、负相似度挖掘模块、关系编码器。首先,通过双流主干网络实现了全局和局部特征对齐;其次,通过负相似度挖掘模块提升了图像-文本对特征辨别的细粒度;最后,通过关系编码器模块分别学习图像和文本中隐含的关系信息,实现关系级别的特征对齐。在CUHK-PEDES数据集和ICFG-PEDES数据集上的实验结果证明,文中方法能够达到较高的识别精度。  相似文献   

19.
针对视频会话业务的实时性需求,提出一种轻量级深度学习网络模型实现视频图像的实时背景替换功能.网络模型包含语义分割和背景替换两个模块.语义分割模块整体架构采用编解码结构,编码端使用编码器模块、空洞卷积金字塔池化模块、注意力模块以及增益模块提取特征;解码端使用解码器模块、调整模块以及编码器模块恢复图像,再传入背景替换模块完成背景替换.该网络模型在本文设定的数据集训练后分割精确度达到94.1%,分割速度达到42.5帧/s,在实时性和准确性上达到较好的平衡,具有很好的实用效果.  相似文献   

20.
深度学习的快速发展给视频压缩感知重构提供了新思路。受网络模型限制,现有的基于深度学习的压缩感知重构方法不能充分利用视频的空时特征,且对于超过16帧的视频段重构效果不够理想。采用Transformer网络构建压缩感知重构网络,利用Transformer网络在序列信号处理方面的优势构建空时注意力提取模块,学习视频帧间的空时注意力特征,更好地实现对视频连续帧的建模,从而解决长跨度视频段压缩感知重构问题。实验结果表明:所提方法在处理32张视频帧的视频分段时,能达到30 dB以上的重构精度,在处理96张视频帧的视频分段时,仍能达到27 dB以上的良好性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号