首页 | 本学科首页   官方微博 | 高级检索  
     检索      

融合深度学习和视觉文本的视频描述方法
引用本文:付燕,马钰,叶鸥.融合深度学习和视觉文本的视频描述方法[J].科学技术与工程,2021,21(14):5855-5861.
作者姓名:付燕  马钰  叶鸥
作者单位:西安科技大学计算机科学与技术学院,西安710054
基金项目:中国博士后科学基金;陕西省自然科学基金
摘    要:为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.

关 键 词:视频描述  3D残差模块  注意力机制  深度学习
收稿时间:2020/10/29 0:00:00
修稿时间:2021/2/4 0:00:00

Research on Video Captioning Method combining Deep Networks and Visual Text
Fu Yan,Ma Yu,Ye Ou.Research on Video Captioning Method combining Deep Networks and Visual Text[J].Science Technology and Engineering,2021,21(14):5855-5861.
Authors:Fu Yan  Ma Yu  Ye Ou
Institution:School of Computer Science and Technology, Xi''an University of Science and Technology;School of Computer Science and Technology, Xi''an University of Science and Technology
Abstract:
Keywords:video captioning      3D residual module      attention mechanism      deep learning
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号