首页 | 本学科首页   官方微博 | 高级检索  
     

基于自适应帧采样算法和BLSTM的视频转文字研究
作者姓名:张荣锋  宁培阳  肖焕侯  史景伦  邱威
作者单位:华南理工大学 电子与信息学院
基金项目:国家自然科学基金资助项目( 61671213) ; 广州市人体数据科学重点实验室资助项目( 201605030011)
摘    要:视频转文字(video to text)是计算机视觉领域一项新的挑战性任务。针对这个技术难题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法。自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型。结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息。同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息。帧信息的融合又增加了特征的种类,从而提升了实验效果。结果显示,在M-VAD和MPII-MD两个数据集中,本文的方法在METEOR中的评分均值分别为7.8和9.1,相对原S2VT模型分别提高了15.7%和28.2%,也提升了视频转文字的语言效果。

关 键 词:视频转文字  自适应帧采样  双向长短时记忆模型  深度卷积神经网络  帧信息的融合  
收稿时间:2017-05-16
本文献已被 CNKI 等数据库收录!
点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《华南理工大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号