摘 要: | 视频转文字(video to text)是计算机视觉领域一项新的挑战性任务。针对这个技术难题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法。自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型。结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息。同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息。帧信息的融合又增加了特征的种类,从而提升了实验效果。结果显示,在M-VAD和MPII-MD两个数据集中,本文的方法在METEOR中的评分均值分别为7.8和9.1,相对原S2VT模型分别提高了15.7%和28.2%,也提升了视频转文字的语言效果。
|