首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于稀疏Transformer的长短时序关联动作识别算法
引用本文:廖健文,杨盈昀,卢玥.基于稀疏Transformer的长短时序关联动作识别算法[J].中国传媒大学学报,2023(6):56-63.
作者姓名:廖健文  杨盈昀  卢玥
作者单位:中国传媒大学信息与通信工程学院
摘    要:针对主流的视频动作识别算法对时序信息的挖掘不充分,而Transformer能够更好地处理长序列和全局依赖性问题,本文将3DCNN和Transformer结合起来,提出了基于稀疏Transformer的长短时序关联动作识别算法,从而实现对视频的全局时序信息进行建模。该算法提取预训练视频模型各个片段特征,嵌入视频特征聚类模块降低输入特征的潜在噪声,并利用基于稀疏自注意力的Transformer长短时序关联模块,引入稀疏掩码矩阵,对相似度矩阵进行掩码操作,抑制较小的注意力权重,选择性地保留重要的长短时序信息,提高模型对全局上下文信息的注意力集中程度。本文在UCF101和HMDB51数据集上进行了大量的实验,验证了本文算法的有效性,在参数量和计算复杂度较小的情况下准确率高于同类权威算法。

关 键 词:深度学习  动作识别  稀疏Transformer  R3D-18
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号