一种基于注意力机制与多模态的图像描述方法 |
| |
引用本文: | 牛斌,李金泽,房超,马利,徐和然,纪兴海.一种基于注意力机制与多模态的图像描述方法[J].辽宁大学学报(自然科学版),2019,46(1). |
| |
作者姓名: | 牛斌 李金泽 房超 马利 徐和然 纪兴海 |
| |
作者单位: | 辽宁大学 信息学院,辽宁 沈阳,110036;渤海大学 信息学院,辽宁 锦州,121001;中国人民解放军65735部队,辽宁 沈阳,118005 |
| |
基金项目: | 辽宁省科技厅博士科研启动基金 |
| |
摘 要: | 最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.
|
关 键 词: | 图像描述 注意力机制 LSTM 多模态 |
本文献已被 CNKI 万方数据 等数据库收录! |
|