基于GoogLeNet多阶段连带优化的图像描述 |
| |
作者姓名: | 汤鹏杰 谭云兰 许恺晟 李金忠 |
| |
作者单位: | 井冈山大学数理学院, 江西, 吉安 343009;井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 江西, 吉安 343009;同济大学计算机科学与技术系, 上海 201804,井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 江西, 吉安 343009;井冈山大学电子与信息工程学院, 江西, 吉安 343009;同济大学计算机科学与技术系, 上海 201804,同济大学计算机科学与技术系, 上海 201804,井冈山大学流域生态与地理环境监测国家测绘地理信息局重点实验室, 江西, 吉安 343009;井冈山大学电子与信息工程学院, 江西, 吉安 343009;同济大学计算机科学与技术系, 上海 201804 |
| |
基金项目: | 2015年度江西省艺术科学规划项目(YG2015081);2015年度江西省教育厅科学技术研究项目(GJJ150788);流域生态与地理环境监测国家测绘地理信息局重点实验室资助课题(WE2016015);井冈山大学科研基金项目(JZ14012) |
| |
摘 要: | 图像描述是使用计算机将一副图像中的内容使用自然语言的形式重新表达,是图像理解任务中极具挑战性的工作。目前,使用深度CNN模型和RNN模型对图像进行编码和解码框架来解决该问题已经成为研究热点,也在多个数据集上取得了突破。但这些工作在使用CNN的过程中对其参数优化不足,且常使用分阶段训练的方式,导致整个系统易陷入局部最优。针对这些问题,在Goog Le Net模型的基础上,利用其中间特征,自底向上添加了两个辅助LSTM分支及其监督函数,通过联合训练,对整个模型进行优化,保证了CNN模型低层参数对任务的有效性,避免了系统陷入局部最优点;同时,由于加入了低层监督函数的干扰,使得模型有了额外的正则化,提高了模型的泛化能力。在Flickr8K和Flickr30K两个数据集上的实验表明,本文方法优势明显,在多个统计指标上均超过了现有其他方法。
|
关 键 词: | 图像描述 GoogLeNet LSTM 多阶段 连带优化 |
收稿时间: | 2016-06-13 |
修稿时间: | 2016-06-26 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《井冈山大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《井冈山大学学报(自然科学版)》下载免费的PDF全文 |
|