排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
针对主流的视频动作识别算法对时序信息的挖掘不充分,而Transformer能够更好地处理长序列和全局依赖性问题,本文将3DCNN和Transformer结合起来,提出了基于稀疏Transformer的长短时序关联动作识别算法,从而实现对视频的全局时序信息进行建模。该算法提取预训练视频模型各个片段特征,嵌入视频特征聚类模块降低输入特征的潜在噪声,并利用基于稀疏自注意力的Transformer长短时序关联模块,引入稀疏掩码矩阵,对相似度矩阵进行掩码操作,抑制较小的注意力权重,选择性地保留重要的长短时序信息,提高模型对全局上下文信息的注意力集中程度。本文在UCF101和HMDB51数据集上进行了大量的实验,验证了本文算法的有效性,在参数量和计算复杂度较小的情况下准确率高于同类权威算法。 相似文献
1