首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

2.
针对主流的视频动作识别算法对时序信息的挖掘不充分,而Transformer能够更好地处理长序列和全局依赖性问题,本文将3DCNN和Transformer结合起来,提出了基于稀疏Transformer的长短时序关联动作识别算法,从而实现对视频的全局时序信息进行建模。该算法提取预训练视频模型各个片段特征,嵌入视频特征聚类模块降低输入特征的潜在噪声,并利用基于稀疏自注意力的Transformer长短时序关联模块,引入稀疏掩码矩阵,对相似度矩阵进行掩码操作,抑制较小的注意力权重,选择性地保留重要的长短时序信息,提高模型对全局上下文信息的注意力集中程度。本文在UCF101和HMDB51数据集上进行了大量的实验,验证了本文算法的有效性,在参数量和计算复杂度较小的情况下准确率高于同类权威算法。  相似文献   

3.
基于时空特征的生猪动作识别   总被引:1,自引:0,他引:1  
针对现代化养殖业无人化、智能化的需求,以目标检测网络YOLOv2为基础,提出了一种基于深度学习提取时空特征的生猪动作识别与定位的方法.对待检测视频关键帧中的生猪空间位置信息与视频流时序动作特征进行检测,采用通道注意力模块将这2种特征进行合理且平滑的特征融合,实现了一个端到端的动作识别网络,可以直接从视频序列中预测得到关...  相似文献   

4.
暴力行为检测是行为识别的一个重要研究方向,在网络信息审查和智能安全领域具有广阔的应用前景.针对目前的时序模型在复杂背景下不能有效提取人体运动特征和常规循环神经网络无法联系输入上下文的问题,本文提出一种时序边界注意力循环神经网络TEAR-Net.首先,以本文提出的一种全新的运动特征提取模块MOE为基础,在保留输入视频段序列背景信息的前提下加强运动边界区域.运动边界对于动作识别的作用要远大于图像其他区域,因此运动边界加强能够有效提高动作特征的提取效率,从而提升后续网络的识别精度.其次,引入了一种全新的结合上下文语境和注意力机制的循环卷积门单元(CSA-ConvGRU),提取连续帧之间的流特征以及不同帧的独立特征,并关注关键帧,能够极大提升动作识别的效率,以少量参数和较低计算量的代价掌握视频流的全局信息,从而有效提高识别准确率.本文提出的模型在目前最新的公开数据集RWF-2000和RLVS上进行了多种实验.实验结果表明,本文提出的网络在模型规模和检测精度上均优于目前主流的暴力行为识别算法.  相似文献   

5.
近年来,异常行为识别算法取得了一定的研究进展,但是针对复杂环境、人体遮挡、动作相似度高等多种挑战,识别算法的适应性、效率、准确性都有待进一步提高。为了解决以上问题,提出了基于特征增强的人体检测与异常行为识别联合算法,首先将视频序列分别送入人体检测网络和特征加强网络,再采用爱因斯坦求和法将特征加强网络输出的多头卷积注意力特征与人体检测网络输出的热力图特征融合,得到加强融合特征,然后利用检测网络输出的人体目标位置特征信息和ROI Align模块对加强融合特征进行人体ROI(region of interest)区域特征截取,得到人体ROI区域加强融合特征,最后将人体ROI区域加强融合特征送入Transformer时序建模网络模块进行人体行为特征时序建模和识别。所提算法充分利用检测网络中间过程产生的行为主体区域特征,弱化了复杂环境中背景的干扰,同时实现了检测网络的输出特征共享,避免了识别网络的二次特征提取过程,从而提高了网络运行效率,且利用Transformer网络的建模优势,能够充分挖掘人体行为空间特征、时序特征以及之间的跨域特征的优势。实验结果表明:所提算法在提高了网络效率的同时大幅度地...  相似文献   

6.
弱监督时序动作定位旨在于仅在视频级标签的监督下,定位未剪辑视频中的动作时间边界,并识别定位结果所对应的动作类别.由于缺少动作在时间上的标注信息,目前大多数弱监督时序动作定位方法通过聚合具有高激活值的显著动作特征来优化分类损失函数的方式训练动作定位网络,这会导致网络过度关注动作片段的关键部分,忽视了视频中部分难以分类的模糊动作片段,难以保证定位结果的完整性.基于上述问题,提出了一种具有多分支注意力机制的网络框架,分别对视频中的显著动作片段、显著背景片段和难以分类的模糊动作片段进行建模.同时,基于上述的多分支注意力权重,构建了3个相应的时域类激活序列优化动作分类损失函数,使网络能够分离视频中的显著动作特征与显著背景特征.为了使网络捕获更加完整的动作片段,基于对比学习设计了模糊动作对比损失函数,在显著特征的引导下细化视频中的模糊动作特征,使网络能够感知精确的动作时间边界,以避免完整动作的截断现象发生.所提方法在2个主流的弱监督时序动作定位数据集THUMOS-14和ActivityNet-1.2上的定位性能均超过了之前的方法.具体而言,所提方法的定位性能相比于之前的方法在上述两个数据集中分别提...  相似文献   

7.
针对行为识别中时空信息分布不均衡以及对长时间跨度信息表征获取难的问题,提出了一种时间-动作感知的多尺度时间序列实时行为识别方法MRTP。以RGB视频为输入,使用两个并行的感知路径在不同的时间分辨率上对视频进行空间特征与动作特征提取。在空间路径中,使用基于特征差分的动作感知寻找并加强通道动作特征表征;在动作路径中,基于动作感知的权重对通道进行筛选,并加入通道注意力和时间注意力加强关键特征;在两个路径提取出特征后,对特征进行融合,融合后的特征通过激活函数映射出样本在各个类别的得分,取得分最高的类别为最终识别结果。实验结果表明:所提方法在UCF101数据集上达到了95.6%的准确率,优于未使用时间注意力的方法;在AVA2.2数据集上的平均精度达到了28%,优于未使用动作感知和时间注意力的方法。与目前主流的基于光流法的双流网络、以Slowfast为代表的3D卷积网络、Transformer等方法进行了准确率、参数量、处理速度对比,结果表明所提方法具有更良好的识别效果和鲁棒性。  相似文献   

8.
为了解决视频行为识别中网络模型结构过于复杂且计算量大的问题,提出一种基于MobileNet+BiGRU结构的轻量化视频行为识别方法。通过嵌入注意力机制提取改进的MobileNet网络视频单帧画面空间特征,将多帧画面的空间特征叠加后送入BiGRU网络提取时序特征,并通过softmax分类器进行分类。对比实验表明,该方法在UCF-101和HMDB51数据集上的识别率分别达到81.4%和56.8%,相比未使用注意力机制的模型分别提升4.7%和6.2%,计算量仅相当于ResNet50+LSTM结构的7.7%,表明该方法比其他方法效率更高。  相似文献   

9.
针对花样滑冰运动人体运动轨迹复杂、动作类型多样、普通人肉眼难以区分且常规的行为识别方法识别准确率低的问题,提出了一种基于时空图卷积网络与多通道注意力机制融合方法 (SAT-GCN)的花样滑冰动作识别算法。该算法首先将视频提取成连续的单独帧,使用OpenPose算法提取人体骨骼关键点数据,降低背景噪声干扰;然后使用时空图卷积算法对骨骼关键点数据进行动作分类。算法对时空图卷积算法进行改进,加入了多通道时空注意力机制融合模块,使得模型更加关注重要的关键点、时间帧片段、特征;使用时序卷积网络(TCN)提取人体骨架关键点在时间序列上的特征;使用SoftMax对提取后的特征进行动作分类。在花样滑冰数据集FSD-10和公开的人类行为数据集Kinetics-Skeleton上进行训练和测试,与改进前的时空图卷积网络(ST-GCN)进行对比,本文所提算法的预测准确率在2个数据集上均有所提升,验证了多通道注意力机制融合方法在花样滑冰选手动作检测任务中的有效性。  相似文献   

10.
基于视频序列的面部表情识别问题主要有两个特点:空时性和显著性。近年来,许多研究人员利用卷积神经网络、循环神经网络、三维卷积神经网络等深度学习方法处理该问题的空时特性。但是,面部表情的显著性问题却往往被忽视。随着注意力机制在深度学习网络中的应用发展,其能够有效地解决各类任务中的显著性问题。该文将空时注意力机制应用到面部表情识别中,使得深度网络更多地关注空时特征中的显著性。具体地,该文将空间注意力模块嵌入到卷积网络中,以使空域特征更加关注对表情识别重要的区域,将时间注意力模块嵌入到门控循环单元(gated recurrent units,GRU)后,使得时域特征更加关注信息丰富的视频帧。在RECOLA情感数据库上的实验表明,与一般的深度模型相比,该文的深度空时注意力网络显著提高了面部表情识别的性能。  相似文献   

11.
为解决传统3D卷积中难以提取时空信息的缺点,提出一种适用于3D卷积网络的多重注意力机制模块.该模块是由通道结合时间子模块和空间子模块组成的多维度特征调整模块.在通道结合时间模块中,通过调整池化层和卷积层的顺序,保留更多的有效通道信息和时间信息;在空间模块中,压缩冗余时间信息以减少计算量.该模块的整体计算量较少,可嵌入到各3D卷积网络中.为验证多重注意力机制模块的性能,基于3D ResNet网络设计部署了该多重注意力机制模块,并在UCF-101和HMDB-51两个行为识别数据集上分别进行训练.结果表明,改进后的3D ResNet在UCF-101上可提升1.50%的精度,在HMDB-51可提升1.24%的精度,而参数量只增加0.24%.  相似文献   

12.
基于骨架的动作识别任务中,一般将骨骼序列表示为预定义的时空拓扑图.然而,由于样本的多样性,固定尺度的拓扑图往往不是最优结构,针对样本特性构建自适应尺度的骨骼拓扑图能够更好地捕捉时空特征;另外,不同尺度的骨骼图能够表达不同粒度的人体结构特征,因此对多个不同尺度的拓扑图进行特征提取与融合是有必要的.针对这些问题,提出了一种自适应尺度的图卷积动作识别模型.该模型包含自适应尺度图卷积模块和多尺度融合模块两部分.自适应尺度图卷积模块基于先验与空间注意力机制,构建关键点的活跃度判决器,将活跃点细化为小尺度结构、非活跃点聚合为大尺度结构,在加速节点间特征传递的同时最小化特征损耗;多尺度融合模块基于通道注意力机制,动态融合不同尺度的特征,进一步提升网络的灵活性;最后,综合关键点、骨骼、运动信息实现多路特征聚合的动作判别,丰富模型的特征表达.结果表明:该算法在NTU-RGBD数据集的CS和CV子集上分别取得了89.7%和96.1%的分类准确率,显著提高了动作识别的准确性.  相似文献   

13.
付燕  马钰  叶鸥 《科学技术与工程》2021,21(14):5855-5861
为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.  相似文献   

14.
图像语义分割模型在提取特征的过程中由于不断的下采样使得空间位置丢失,分割效果较差,针对该问题,提出了融合空间和通道注意力多级别特征来构造学习网络的方法.首先针对具有高级别特征的语义信息路径引入了通道注意力模块,在预训练模型Resnet101提取的特征图上,显式地建模通道之间的相互依存关系,确定每层特征图上需要重点关注的...  相似文献   

15.
人体姿态估计是计算机视觉领域的研究热点之一,目标是从给定的图像或视频中识别人体的关节.由于篮球比赛视频中人体动作复杂多变,易产生运动模糊、遮挡等问题,导致现有的人体姿态算法对篮球动作姿态估计的准确率较低.针对这一问题,提出了一种基于多尺度时空关联特征的篮球动作姿态估计算法,构建基于Transformer的人体时序特征捕捉模块对序列层级的时空特征信息进行建模,以缓解运动模糊、遮挡等现象带来的负面影响.此外,针对人体外形复杂多变的问题,提出了基于可形变卷积的人体空间特征残差融合模块来获取更为充分的空间特征.与现有算法相比,该算法在自行构建的篮球场景人体运动数据集、姿态估计公开基准数据集PoseTrack2017和PoseTrack2018均取得较好的效果.  相似文献   

16.
对于第一人称行为识别任务,现有方法大多使用了目标边界框和人眼视线数据等非行为类别标签对深度神经网络进行辅助监督,以使其关注视频中手部及其交互物体所在区域。这既需要更多的人工标注数据,又使得视频特征的提取过程变得更为复杂。针对该问题,提出了一种多尺度时序交互模块,通过不同尺度的3D时序卷积使2D神经网络提取的视频帧特征进行时序交互,从而使得单一视频帧的特征融合其近邻帧的特征。在只需行为类别标签作监督的情况下,多尺度时序交互能够促使网络更加关注第一人称视频中手部及其交互物体所在区域。实验结果表明,提出的方法在识别准确率优于现有第一人称行为识别方法。  相似文献   

17.
异常行为识别与检测在安防领域有广泛的应用前景,但现有的异常行为识别方法时序信息利用率低,准确率和处理速度还难以满足实际需要.本文采用三维密集连接深度网络结构对采集视频的时序和空间特征进行基于深度学习的建模,对打架、徘徊、抢劫这三类异常行为以及正常行为类进行识别,采用多个可变时序深度的卷积核,并结合深度可分离卷积层重新设计了时序过渡层,更多地利用输入信号中的时序信息.模拟实验结果表明,本文提出的改进方法准确率达92.5%,进一步提高了模型的准确率和泛化性能.  相似文献   

18.
视频动作检测研究是在动作识别的基础上进一步获取动作发生的位置和时间信息.结合RGB空间流和光流时间流,提出了一种基于SSD的区域时空二合一动作检测网络.改进了非局部时空模块,在光流中设计了像素点筛选器来提取运动关键区域信息,只对空间流中筛选出的动作关键区域进行相关性计算,有效获得动作长距离依赖并改善非局部模块计算成本较...  相似文献   

19.
将深度学习应用于行人重识别领域,嵌入多尺度注意力融合模块至神经网络中进行多尺度特征提取和表示,可有效提升注意力机制对深度学习网络的识别性能。提出了一种基于SE block的多尺度通道注意力融合模块,并结合ResNet50卷积神经网络提取特征;然后通过双向LSTM网络进一步提取特征序列上下文信息,在提高模型对图像重要特征的提取能力的同时,降低对图像冗余特征的关注度;最后使用级联难采样三元组损失函数和交叉熵损失函数共同训练网络模型,使样本能够在高维特征空间中实现聚类,进一步提升模型识别准确性。所提出算法在Market1501数据集和CUHK03数据集分别进行实验,并在同等条件下和其他注意力模块算法进行比较。为进一步验证各模块作用,对算法进行消融实验,以验证各模块的有效性,实验结果表明,所提出方法可有效应用于行人重识别  相似文献   

20.
针对现有恶意代码检测模型对恶意代码及其变种识别率不高,且参数量过大这一问题,将轻量化卷积Ghost、密集连接网络DenseNet与通道域注意力机制SE相结合,提出一种基于Ghost-DenseNet-SE的恶意代码家族检测模型.该模型为压缩模型体积、提升识别速率,将DenseNet中的标准卷积层替换为轻量化Ghost模块;并引入通道域注意力机制,赋予特征通道不同权重,用以提取恶意代码的关键特征,提高模型检测精度.在M alim g数据集上的实验结果表明,该模型对恶意代码家族的识别准确率可以达到99.14%,与AlexNet、VGGNet等模型相比分别提高了1.34% 和2.98%,且模型参数量更低.该算法在提升分类准确率的同时,降低了模型复杂度,在恶意代码检测中具有重要的工程价值和实践意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号