首页 | 本学科首页   官方微博 | 高级检索  
     检索      

融合自上而下和自下而上注意力的图像描述生成
引用本文:武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320.
作者姓名:武光利  郭振洲  李雷霆
作者单位:甘肃政法大学网络空间安全学院
基金项目:甘肃省自然科学基金(21JR7RA570,20JR10RA334);2021年陇原青年创新创业人才项目(2021LQGR20);甘肃省高等学校创新能力提升项目(2020B-167);甘肃政法大学校级重大科研创新项目(GZF2020XZDA03);甘肃政法大学司法鉴定中心科研资助项目(jdzxyb2018-01);甘肃省青年博士基金(2022QB-123)
摘    要:随着互联网的普及,每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值,图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit, GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory, LSTM)解析图像特征和语义信息并生成描述语句。在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然。本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675...

关 键 词:自上而下注意力  自下而上注意力  图像描述生成  生成式对抗网络(GAN)  强化学习(RL)
收稿时间:2022/1/18 0:00:00
修稿时间:2022/8/14 0:00:00

Combining Bottom-Up and Top-Down Attention for Image Captioning
Wu Guangli,Guo Zhenzhou,Li Leiting.Combining Bottom-Up and Top-Down Attention for Image Captioning[J].Science Technology and Engineering,2022,22(32):14313-14320.
Authors:Wu Guangli  Guo Zhenzhou  Li Leiting
Institution:School of Cyber Security
Abstract:
Keywords:top-down attention  bottom-up attention  image captioning  generative adversarial networks  reinforcement learning
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号