首页 | 本学科首页   官方微博 | 高级检索  
     

基于POMDP模型的机器人行动的仿真优化
引用本文:马军,殷保群. 基于POMDP模型的机器人行动的仿真优化[J]. 系统仿真学报, 2008, 20(21): 5903-5906
作者姓名:马军  殷保群
作者单位:中国科学技术大学网络传播系统与控制联合实验室
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划),中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金
摘    要:策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值.在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真.通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率.

关 键 词:强化学习  策略梯度算法  仿真优化

Simulation Optimization of Actions of Robot Based on POMDP Model
MA Jun,YIN Bao-qun. Simulation Optimization of Actions of Robot Based on POMDP Model[J]. Journal of System Simulation, 2008, 20(21): 5903-5906
Authors:MA Jun  YIN Bao-qun
Abstract:Policy-gradient algorithm is a very important way of reinforcement learning algorithm,which is of significant value to a robot's navigation by itself.On the basis of partially observable Markov decision processes,two finite-memory policy-gradient algorithms,that is,model-based GAMP algorithm and model-free IState-GPOMDP algorithm,were implemented,and employed in the simulation of a robot walking in a maze.According to the analysis of experimental results,GAMP algorithm and IState-GPOMDP algorithm were optimized based on observation.And it is found that the step,the parameter in Policy-gradient algorithm,has effect,to some extent,on the efficiency of optimization of the robot's action policy under certain rewarding function circumstance.
Keywords:POMDP
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号