一种基于注意力机制与多模态的图像描述方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种基于注意力机制与多模态的图像描述方法

引用本文：	牛斌,李金泽,房超,马利,徐和然,纪兴海.一种基于注意力机制与多模态的图像描述方法[J].辽宁大学学报(自然科学版),2019,46(1).

作者姓名：	牛斌李金泽房超马利徐和然纪兴海

作者单位：	辽宁大学信息学院,辽宁沈阳,110036;渤海大学信息学院,辽宁锦州,121001;中国人民解放军65735部队,辽宁沈阳,118005

基金项目：	辽宁省科技厅博士科研启动基金

摘要：	最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.
关键词：	图像描述注意力机制 LSTM 多模态
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏