首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于回报函数逼近的学徒学习综述
引用本文:金卓军,钱徽,陈沈轶,朱淼良.基于回报函数逼近的学徒学习综述[J].华中科技大学学报(自然科学版),2008,36(Z1).
作者姓名:金卓军  钱徽  陈沈轶  朱淼良
作者单位:浙江大学计算机科学与技术学院
摘    要:回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.

关 键 词:学徒学习  回报函数  综述  逆向增强学习  边际最大化

Survey of apprenticeship learning based on reward function approximating
Jin Zhuojun,Qian Hui,Chen Shenyi,Zhu Miaoliang.Survey of apprenticeship learning based on reward function approximating[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2008,36(Z1).
Authors:Jin Zhuojun  Qian Hui  Chen Shenyi  Zhu Miaoliang
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号