融合深度学习和视觉文本的视频描述方法 Research on Video Captioning Method combining Deep Networks and Visual Text期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

融合深度学习和视觉文本的视频描述方法

引用本文：	付燕,马钰,叶鸥.融合深度学习和视觉文本的视频描述方法[J].科学技术与工程,2021,21(14):5855-5861.

作者姓名：	付燕马钰叶鸥

作者单位：	西安科技大学计算机科学与技术学院,西安710054

基金项目：	中国博士后科学基金；陕西省自然科学基金

摘要：	为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.
关键词：	视频描述 3D残差模块注意力机制深度学习
收稿时间：	2020/10/29 0:00:00
修稿时间：	2021/2/4 0:00:00
Research on Video Captioning Method combining Deep Networks and Visual Text

Fu Yan,Ma Yu,Ye Ou.Research on Video Captioning Method combining Deep Networks and Visual Text[J].Science Technology and Engineering,2021,21(14):5855-5861.

Authors:	Fu Yan Ma Yu Ye Ou

Institution:	School of Computer Science and Technology, Xi&#39;&#39;an University of Science and Technology;School of Computer Science and Technology, Xi''an University of Science and Technology

Abstract:

Keywords:	video captioning 3D residual module attention mechanism deep learning
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《科学技术与工程》浏览原始摘要信息
	点击此处可从《科学技术与工程》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏