期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	3篇
免费	0篇

专业分类

综合类

3篇

出版年

2011年	1篇
2008年	1篇
2005年	1篇

排序方式： 共有3条查询结果，搜索用时 15 毫秒

基于回报函数逼近的学徒学习综述

金卓军钱徽陈沈轶朱淼良《华中科技大学学报(自然科学版)》2008,36(Z1)

回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等. 相似文献

基于Web的自主式移动机器人的调试仿真环境

许少君钱徽陈沈轶朱淼良《江南大学学报(自然科学版)》2005,4(6):615-619

提出了一种采用浏览器／服务端和客户端／服务端混合结构的机器人调试与仿真环境。该环境部分采用了网页技术，适用于调试和仿真多智能主体系统结构的自主移动机器人．在介绍其组成结构的基础上，详细分析了自主移动机器人调试和仿真的结构，讨论了在实时在线监控、离线数据回放、模拟仿真、真实数据仿真等几种情况下的工作模式及作用．实验结果表明，该调试仿真环境能有效地对自主移动机器人进行监控、跟踪、记录、调试、仿真，在实际项目开发中提高了系统的开发效率，缩短了开发周期．相似文献

基于AMDP-Q的自主车辆行驶策略求解

夏林锋钱徽陈沈轶金卓军《华中科技大学学报(自然科学版)》2011,39(Z2):370-373

结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化... 相似文献