基于自适应帧采样算法和BLSTM的视频转文字研究 |
| |
引用本文: | 张荣锋,宁培阳,肖焕侯,史景伦,邱威.基于自适应帧采样算法和BLSTM的视频转文字研究[J].华南理工大学学报(自然科学版),2018(1). |
| |
作者姓名: | 张荣锋 宁培阳 肖焕侯 史景伦 邱威 |
| |
作者单位: | 华南理工大学电子与信息学院 |
| |
摘 要: | 针对视频转文字(video to text)存在的建模复杂和准确率低的问题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法.自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型;结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息;同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息;帧信息的融合又增加了特征的种类,从而提升了实验效果.结果显示,在M-VAD和MPIIMD两个数据集中,文中的方法在METEOR中的评分均值分别为7.8%和8.6%,相对原S2VT模型分别提高了16.4%和21.1%,也提升了视频转文字的语言效果.
|
本文献已被 CNKI 等数据库收录! |
|