针对不可微多阶段算法的环境升级式强化学习方法 Environment upgrade reinforcement learning for non-differentiable multi-stage pipelines期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

针对不可微多阶段算法的环境升级式强化学习方法

引用本文：	谢树钦,陈梓天,徐超,卢策吾.针对不可微多阶段算法的环境升级式强化学习方法[J].重庆邮电大学学报(自然科学版),2020,32(5):857-858.

作者姓名：	谢树钦陈梓天徐超卢策吾

作者单位：	上海交通大学电子信息与电气工程学院,上海 200240;复旦大学计算机科学技术学院,上海 200433

基金项目：	国家自然科学基金(61772332)

摘要：	多阶段算法的研究目前已取得很大进展，但仍存在2个重要问题。在推理阶段，信息不能从下游反馈到上游。在训练阶段，当整个模型涉及不可微函数时无法进行端到端的训练，因此不同阶段不能联合优化。提出一种新的环境升级式强化学习方法来解决反馈和联合优化问题，该方法的框架结构是通过一个强化学习智能体将下游阶段与上游阶段重新连接起来，利用优化上游阶段的输出来训练智能体，以提高最终性能，同时根据智能体的策略对下游阶段(环境)进行升级，实现智能体策略和环境的联合优化。针对智能体和环境的不同训练需求，还提出了一种基于该框架的训练算法，并在实例分割和人体姿态估计实验中证明了其有效性。
关键词：	多阶段算法强化学习人体姿态估计实例分割
收稿时间：	2020/6/29 0:00:00
修稿时间：	2020/8/30 0:00:00
Environment upgrade reinforcement learning for non-differentiable multi-stage pipelines

XIE Shuqin,CHEN Zitian,XU Chao,LU Cewu.Environment upgrade reinforcement learning for non-differentiable multi-stage pipelines[J].Journal of Chongqing University of Posts and Telecommunications,2020,32(5):857-858.

Authors:	XIE Shuqin CHEN Zitian XU Chao LU Cewu

Institution:	School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, P. R. China;School of Computer Science, Fudan University, Shanghai 200433, P. R. China

Abstract:

Keywords:	Multi-stage algorithms reinforcement learning human pose estimation instance segmentation

	点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《重庆邮电大学学报(自然科学版)》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏