融合自上而下和自下而上注意力的图像描述生成 Combining Bottom-Up and Top-Down Attention for Image Captioning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

融合自上而下和自下而上注意力的图像描述生成

引用本文：	武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320.

作者姓名：	武光利郭振洲李雷霆

作者单位：	甘肃政法大学网络空间安全学院

基金项目：	甘肃省自然科学基金(21JR7RA570,20JR10RA334)；2021年陇原青年创新创业人才项目(2021LQGR20)；甘肃省高等学校创新能力提升项目(2020B-167)；甘肃政法大学校级重大科研创新项目(GZF2020XZDA03)；甘肃政法大学司法鉴定中心科研资助项目(jdzxyb2018-01)；甘肃省青年博士基金（2022QB-123）

摘要：	随着互联网的普及，每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值，图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时，该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征，并利用自上而下和自下而上注意力分别计算两种特征的权重；利用门控循环单元(gate recurrent unit, GRU)提取一句话中单词之间的上下文语义信息；利用长短期记忆网络(long short-term memory, LSTM)解析图像特征和语义信息并生成描述语句。在训练时，首先以监督学习的方法，训练出基于编码器-解码器框架的一个基础模型；然后再以结合生成式对抗网络和强化学习的方法，在相互对抗中得到不断优化的策略函数和不断完善的奖励机制，从而使生成的句子更加准确、自然。本文模型在COCO数据集上进行训练和测试，最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675...
关键词：	自上而下注意力自下而上注意力图像描述生成生成式对抗网络(GAN) 强化学习(RL)
收稿时间：	2022/1/18 0:00:00
修稿时间：	2022/8/14 0:00:00
Combining Bottom-Up and Top-Down Attention for Image Captioning

Wu Guangli,Guo Zhenzhou,Li Leiting.Combining Bottom-Up and Top-Down Attention for Image Captioning[J].Science Technology and Engineering,2022,22(32):14313-14320.

Authors:	Wu Guangli Guo Zhenzhou Li Leiting

Institution:	School of Cyber Security

Abstract:

Keywords:	top-down attention bottom-up attention image captioning generative adversarial networks reinforcement learning

	点击此处可从《科学技术与工程》浏览原始摘要信息
	点击此处可从《科学技术与工程》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏