首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   3篇
  免费   0篇
综合类   3篇
  2011年   1篇
  2008年   1篇
  2005年   1篇
排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.  相似文献   
2.
提出了一种采用浏览器/服务端和客户端/服务端混合结构的机器人调试与仿真环境。该环境部分采用了网页技术,适用于调试和仿真多智能主体系统结构的自主移动机器人.在介绍其组成结构的基础上,详细分析了自主移动机器人调试和仿真的结构,讨论了在实时在线监控、离线数据回放、模拟仿真、真实数据仿真等几种情况下的工作模式及作用.实验结果表明,该调试仿真环境能有效地对自主移动机器人进行监控、跟踪、记录、调试、仿真,在实际项目开发中提高了系统的开发效率,缩短了开发周期.  相似文献   
3.
结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化...  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号