基于回报函数逼近的学徒学习综述 Survey of apprenticeship learning based on reward function approximating期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于回报函数逼近的学徒学习综述

引用本文：	金卓军,钱徽,陈沈轶,朱淼良.基于回报函数逼近的学徒学习综述[J].华中科技大学学报(自然科学版),2008,36(Z1).

作者姓名：	金卓军钱徽陈沈轶朱淼良

作者单位：	浙江大学计算机科学与技术学院

摘要：	回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.
关键词：	学徒学习回报函数综述逆向增强学习边际最大化
Survey of apprenticeship learning based on reward function approximating

Jin Zhuojun,Qian Hui,Chen Shenyi,Zhu Miaoliang.Survey of apprenticeship learning based on reward function approximating[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2008,36(Z1).

Authors:	Jin Zhuojun Qian Hui Chen Shenyi Zhu Miaoliang

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏