首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

2.
视频行为识别通常应用短区间动作特征和长区间视频聚集特征进行时序建模.而这种时序建模方式在特征提取过程中,将不同时序区间的动作特征同等看待,忽略了关键通道信息和重要动作内容,不能达到理想的行为识别效果.注意力机制能够重点关注目标区间,在提取时间激励与聚集行为特征基础上融入通道-空间注意力模块.该模型分别通过通道和空间模块改变时序动作的特征分布,通道注意力关注关键通道信息是“哪些”,空间注意力机制关注重要视频内容在“哪里”,突出关键通道信息和重要内容等特征,提高了行为识别的识别率.同时在数据集Something-Something 1,UCF101和HMDB51对模型进行实验,融入通道-空间注意力模块的时间激励与聚集行为识别模型能够有效提高行为识别率.  相似文献   

3.
人体姿态估计是计算机视觉领域的研究热点之一,目标是从给定的图像或视频中识别人体的关节.由于篮球比赛视频中人体动作复杂多变,易产生运动模糊、遮挡等问题,导致现有的人体姿态算法对篮球动作姿态估计的准确率较低.针对这一问题,提出了一种基于多尺度时空关联特征的篮球动作姿态估计算法,构建基于Transformer的人体时序特征捕捉模块对序列层级的时空特征信息进行建模,以缓解运动模糊、遮挡等现象带来的负面影响.此外,针对人体外形复杂多变的问题,提出了基于可形变卷积的人体空间特征残差融合模块来获取更为充分的空间特征.与现有算法相比,该算法在自行构建的篮球场景人体运动数据集、姿态估计公开基准数据集PoseTrack2017和PoseTrack2018均取得较好的效果.  相似文献   

4.
近年来,异常行为识别算法取得了一定的研究进展,但是针对复杂环境、人体遮挡、动作相似度高等多种挑战,识别算法的适应性、效率、准确性都有待进一步提高。为了解决以上问题,提出了基于特征增强的人体检测与异常行为识别联合算法,首先将视频序列分别送入人体检测网络和特征加强网络,再采用爱因斯坦求和法将特征加强网络输出的多头卷积注意力特征与人体检测网络输出的热力图特征融合,得到加强融合特征,然后利用检测网络输出的人体目标位置特征信息和ROI Align模块对加强融合特征进行人体ROI(region of interest)区域特征截取,得到人体ROI区域加强融合特征,最后将人体ROI区域加强融合特征送入Transformer时序建模网络模块进行人体行为特征时序建模和识别。所提算法充分利用检测网络中间过程产生的行为主体区域特征,弱化了复杂环境中背景的干扰,同时实现了检测网络的输出特征共享,避免了识别网络的二次特征提取过程,从而提高了网络运行效率,且利用Transformer网络的建模优势,能够充分挖掘人体行为空间特征、时序特征以及之间的跨域特征的优势。实验结果表明:所提算法在提高了网络效率的同时大幅度地...  相似文献   

5.
暴力行为检测是行为识别的一个重要研究方向,在网络信息审查和智能安全领域具有广阔的应用前景.针对目前的时序模型在复杂背景下不能有效提取人体运动特征和常规循环神经网络无法联系输入上下文的问题,本文提出一种时序边界注意力循环神经网络TEAR-Net.首先,以本文提出的一种全新的运动特征提取模块MOE为基础,在保留输入视频段序列背景信息的前提下加强运动边界区域.运动边界对于动作识别的作用要远大于图像其他区域,因此运动边界加强能够有效提高动作特征的提取效率,从而提升后续网络的识别精度.其次,引入了一种全新的结合上下文语境和注意力机制的循环卷积门单元(CSA-ConvGRU),提取连续帧之间的流特征以及不同帧的独立特征,并关注关键帧,能够极大提升动作识别的效率,以少量参数和较低计算量的代价掌握视频流的全局信息,从而有效提高识别准确率.本文提出的模型在目前最新的公开数据集RWF-2000和RLVS上进行了多种实验.实验结果表明,本文提出的网络在模型规模和检测精度上均优于目前主流的暴力行为识别算法.  相似文献   

6.
基于时空特征的生猪动作识别   总被引:1,自引:0,他引:1  
针对现代化养殖业无人化、智能化的需求,以目标检测网络YOLOv2为基础,提出了一种基于深度学习提取时空特征的生猪动作识别与定位的方法.对待检测视频关键帧中的生猪空间位置信息与视频流时序动作特征进行检测,采用通道注意力模块将这2种特征进行合理且平滑的特征融合,实现了一个端到端的动作识别网络,可以直接从视频序列中预测得到关...  相似文献   

7.
针对传统指纹识别方法存在准确率低、推理速度慢等问题,提出了一种应用于指纹识别和匹配的深度学习模型Finger-mixNet指纹识别算法。Finger-mixNet模型基于卷积神经网络和Transformer结构进行关联融合,包括两个核心模块共同表征指纹识别任务的深度特征。Network-C模块基于卷积神经网络获取浅层纹理特征,Network-TC模块基于自注意力机制和卷积共同捕捉指纹深度特征信息,在获得对重点区域注意力的同时,具有比传统卷积更小的计算开销。为证明模型的有效性,在自建的指纹数据集和公共数据集中对模型进行了测试,在自建数据集中Finger-mixNet达到了97.1%的识别准确率,在公共数据集中也取得了98.3%的识别准确率,除此之外Finger-mixNet在保持高识别率同时在上述两种数据集中均能保持200FPS的识别速度。  相似文献   

8.
基于无创脑电信号的精细手势动作识别是脑卒中患者运动功能康复的重要技术手段。本文通过设计实际手势动作,以手指精细运动时的运动功能区长时程脑电信号作为数据处理对象,改进了一种基于自我注意的Transformer模型识别方法,分别从时间维度和空间维度构建了基于自我注意模块的Transformer模型及其变体Top-k稀疏Transformer模型,并结合脑电数据结构特点设计了一种基于MEMD-CCA的混合去伪影方法,改进的Transformer模型取得了优异的分类识别结果。  相似文献   

9.
针对花样滑冰运动人体运动轨迹复杂、动作类型多样、普通人肉眼难以区分且常规的行为识别方法识别准确率低的问题,提出了一种基于时空图卷积网络与多通道注意力机制融合方法 (SAT-GCN)的花样滑冰动作识别算法。该算法首先将视频提取成连续的单独帧,使用OpenPose算法提取人体骨骼关键点数据,降低背景噪声干扰;然后使用时空图卷积算法对骨骼关键点数据进行动作分类。算法对时空图卷积算法进行改进,加入了多通道时空注意力机制融合模块,使得模型更加关注重要的关键点、时间帧片段、特征;使用时序卷积网络(TCN)提取人体骨架关键点在时间序列上的特征;使用SoftMax对提取后的特征进行动作分类。在花样滑冰数据集FSD-10和公开的人类行为数据集Kinetics-Skeleton上进行训练和测试,与改进前的时空图卷积网络(ST-GCN)进行对比,本文所提算法的预测准确率在2个数据集上均有所提升,验证了多通道注意力机制融合方法在花样滑冰选手动作检测任务中的有效性。  相似文献   

10.
郑嘉颖  王杰  付攀  李桢  边桂彬 《科学技术与工程》2023,23(29):12620-12627
为解决样本分布不均衡的连续动作序列分割识别精度不高的问题,提出一种基于深度学习的新型连续动作分割与识别模型,该模型能够从多维时间序列中提取更丰富全面的动作特征。使用基于双向长短时记忆网络(bidirectional long short-term memory networks, Bi-LSTM)的特征提取单元提取数据特征,利用基于注意力机制的特征融合模块融合多种模态的特征,并利用全连接层构建的解码器完成最终分类。实验中使用多种传感器采集了眼科手术中连续环形撕囊操作的连续动作多模态数据对算法进行验证实验。实验结果显示,与使用长短时记忆网络(LSTM)和门控循环单元(gated recurrent unit, GRU)的数据层融合算法以及4种特征层融合策略相比,所提出的模型具有更好的性能。对于数据量最小的动作类别,该算法的识别精度提高了14%以上,全局F1分数提升8%以上,整体识别准确度达到90.72%。这些结果表明,该模型能够有效解决样本分布不均衡的连续动作序列分割识别精度问题,并为多模态连续动作分割与样本不均衡问题的解决提供了新的思路和方法。  相似文献   

11.
针对基于卷积神经网络的行人重识别算法全局信息建模不足的问题,分析了卷积操作的局限性,提出一种基于Transformer改进的全局-局部两分支行人重识别算法.首先利用相对位置编码改进多头自注意力机制,并将其嵌入到Resnet50骨干网络中.之后在全局分支中对图像进行空间几何划分并利用Transformer的全局感受野增强抽象特征的提取能力;在局部分支中对Layer_3输出进行降维监督,利用多尺度池化获得更丰富的局部特征.实验结果表明,该算法在公开数据集Market-1501和DukeMTMC-reID上的mAP/Rank-1分别达到了93.45%/95.61%和88.79%/90.35%,相对于单纯基于卷积神经网络的算法,本文算法达到更高的精度.  相似文献   

12.
由于雷达辐射源信号在时序上具有强相关性,针对卷积神经网络难以提取信号的时序逻辑相关性特征的缺点,本文提出了基于Transformer网络的雷达辐射源个体识别的方法。该方法首先以3台信号发生器模拟雷达辐射源信号,同时采集数据并建立数据库;然后对原始信号提取相位特征以及包络特征;最后采用基于注意力机制的Transformer网络对信号进行进一步的特征提取并分类。实验结果表明,该算法对于包络特征以及相位特征敏感度不同,同时数据样本长度对于识别效果会产生影响,最终结合相位特征的网络模型在信噪比为15 dB时识别率可以达到98.9%。  相似文献   

13.
微表情是一种细微的能够体现人真实心理活动的面部运动,通常与真实情感直接相关,应用前景广阔。但由于微表情持续时间短暂、表情幅度低和特征难以提取等特点,因此其识别准确率较低。针对该问题,提出了基于盒注意力机制和Transformer的人脸微表情识别模型(vision transformer based on box-attention, ViT-Box)。该模型首先对人脸面部进行特征提取,利用盒注意力机制获得自适应的面部微表情关键区域:左眉眼、右眉眼和嘴巴;然后对非关键区域进行掩码遮盖,避免微表情无关信息干扰;最后基于Vision Transformer网络实现人脸微表情识别。ViT-Box模型在微-宏表情仓库(MMEW)数据集上取得了98.68%的平均准确率,实验结果表明该模型在微表情识别上能够获得优秀的识别效果。同时通过消融实验验证了ViT-Box模型的有效性。  相似文献   

14.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

15.
针对图像识别中获取全局特征的局限性及难以提升识别准确性的问题,提出一种基于随机增强Swin-Tiny Transformer轻量级模型的图像识别方法.该方法在预处理阶段结合基于随机数据增强(random data augmentation based enhancement, RDABE)算法对图像特征进行增强,并采用Transformer的自注意力机制,以获得更全面的高层视觉语义信息.通过在玉米病害数据集上优化Swin-Tiny Transformer模型并进行参数微调,在农业领域的玉米病害上验证了该算法的适用性,实现了更精确的病害检测.实验结果表明,基于随机增强的轻量级Swin-Tiny+RDABE模型对玉米病害图像识别准确率达93.586 7%.在参数权重一致,与性能优秀的轻量级Transformer、卷积神经网络(CNN)系列模型对比的实验结果表明,改进的模型准确率比Swin-Tiny Transformer, Deit3_Small, Vit_Small, Mobilenet_V3_Small, ShufflenetV2和Efficientnet_B1_Pruned模型提高了...  相似文献   

16.
针对行为识别中时空信息分布不均衡以及对长时间跨度信息表征获取难的问题,提出了一种时间-动作感知的多尺度时间序列实时行为识别方法MRTP。以RGB视频为输入,使用两个并行的感知路径在不同的时间分辨率上对视频进行空间特征与动作特征提取。在空间路径中,使用基于特征差分的动作感知寻找并加强通道动作特征表征;在动作路径中,基于动作感知的权重对通道进行筛选,并加入通道注意力和时间注意力加强关键特征;在两个路径提取出特征后,对特征进行融合,融合后的特征通过激活函数映射出样本在各个类别的得分,取得分最高的类别为最终识别结果。实验结果表明:所提方法在UCF101数据集上达到了95.6%的准确率,优于未使用时间注意力的方法;在AVA2.2数据集上的平均精度达到了28%,优于未使用动作感知和时间注意力的方法。与目前主流的基于光流法的双流网络、以Slowfast为代表的3D卷积网络、Transformer等方法进行了准确率、参数量、处理速度对比,结果表明所提方法具有更良好的识别效果和鲁棒性。  相似文献   

17.
针对视频中包含的异常事件数量稀少,信息密集的特征容易被遗漏等问题,本文提出一种双交叉注意力自编码器的视频异常事件检测方法.首先预处理视频集,提取视频帧中表观和运动特征,然后设计双交叉注意力模块融入自编码器中,使特征图在自编码器中能够更好地关联全局特征.其次将提取后的特征放入各自的自编码器中学习正常行为,使含有正常事件的视频帧能被模型重构,含有异常事件的视频帧则无法被重构.最后通过检测模型得到各个视频帧的重构误差从而进行异常事件判定.该方法可以以局部特征关联全局特征的方式有效提高视频异常事件检测的准确率,通过在多个公开数据集中进行实验验证,证明该方法优于其他同类方法.  相似文献   

18.
为了充分提取治安监控视频中的时空特征和时序特征,并对暴力行为进行准确的识别与检测,提出一种基于三维卷积神经网络(3DCNN)和卷积长短期记忆网络(Conv LSTM)的暴力行为识别算法。首先,采用一种通用视频描述符—3DCNN结构,提取视频的短时特征,这些特征封装了视频中与目标和场景相关的背景信息,然后,构建Conv LSTM网络对3DCNN提取的短时特征在时间轴上进行建模,进而充分提取视频的高层时序特征。最后,利用Sigmoid函数分类行为动作。为了验证该算法的高效性,对所提出的方法在暴力行为数据集Hockey上进行验证,达到了98.96%的识别精度。测试结果表明,该融合模型在检测效果上优于目前人工提取特征的方法和深度学习的方法。  相似文献   

19.
动作识别是近年来时序数据挖掘领域的研究热点,具有广泛的应用前景。但是现阶段基于深度学习的动作识别算法需要大量的标记训练数据集,存在泛化性差、实时性差、场景受限的问题。为解决这些问题,本研究设计一种基于轻量化二维人体姿态估计的小样本动作识别算法。该算法基于YOLOv5算法构建轻量化的人体检测器HYOLOv5。基于轻量化二维姿态估计模型Lite-HRNet设计人体姿态特征描述算子,有效地去除背景对人体动作特征的干扰。为有效度量时序人体姿态特征描述算子间的相似度,本研究提出基于动态时间规整的人体姿态特征距离度量,并在此基础上设计基于类别中心选择的动作模板匹配算法。该算法通过少量的动作视频构建动作特征模板库,利用动作模板匹配算法可实现多类动作视频的精准识别。为验证算法,本研究在COCO 2017的Humans数据集上对HYOLOv5进行测试,人体检测识别精度mAP@0.5∶0.95可达50.7%。基于10种动作视频数据进行测试,结果表明,本研究所提算法可有效地识别视频序列中的姿态,在每个动作仅包含4个训练数据的情况下,动作识别准确率均可达到91.8%。  相似文献   

20.
基于视觉Transformer的自监督模型掩码自编码器因其优秀的全局特征捕捉能力,被广泛应用于遥感图像分类领域。但该模型存在图像重建训练时局部上下文语义信息易丢失从而限制其分类精度的进一步提升。针对以上问题,本文提出了融合掩码重建和对比学习的三阶段自监督遥感图像分类新模型——对比掩码自编码器。第一阶段进行掩码重建预训练,以提取遥感图像全局特征;第二阶段则通过对比学习中的正负样本补充第一阶段掩码建模过程中丢失的局部上下文信息;最后通过训练线性分类器完成特征分类。在公开遥感图像数据集AID和NWPU-RESISC45上将本文方法与主流自监督分类方法、监督分类方法进行对比实验。实验结果表明,该模型在两个数据集上分类精度分别达到95.37%和95.14%,性能优于DINO、MoCo、SSGANs等主流自监督模型,接近GLANet、CANet、MG-CAP (Sqrt-E)等主流监督模型,具有良好的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号