首页 | 本学科首页   官方微博 | 高级检索  
     

基于强化学习的多机器人编队导航
引用本文:赵杰,姜健,臧希喆. 基于强化学习的多机器人编队导航[J]. 辽宁工程技术大学学报(自然科学版), 2007, 26(6): 915-918
作者姓名:赵杰  姜健  臧希喆
作者单位:哈尔滨工业大学,机器人研究所,黑龙江,哈尔滨,150001;哈尔滨工业大学,机器人研究所,黑龙江,哈尔滨,150001;哈尔滨工业大学,机器人研究所,黑龙江,哈尔滨,150001
基金项目:教育部长江学者和创新团队发展计划基金资助项目(IRT0423)
摘    要:针对多机器人系统在未知环境编队导航过程中遇到较长障碍物时,顺时针绕障和逆时针绕障的不同选择会给导航效率带来很大影响的问题,提出了一种三层强化学习方法。由高层的基于“条件-行为对”的在线学习适应环境障碍物的动态变化,中层采用角色交叉包含式控制结构保持队形,底层采用离线式常规强化学习机制获得避碰规则。仿真实验结果表明,由于只在高层保持在线学习,使学习空间得以缩小,学习时间得以缩短。该方法为复杂环境下的多机器人编队导航提供了一种有效的自主学习策略。

关 键 词:多机器人系统  强化学习  编队导航  角色
文章编号:1008-0562(2007)06-0915-04
收稿时间:2006-10-15
修稿时间:2006-10-15

Multi-robots formation and navigation based reinforcement learning
ZHAO Jie,JIANG Jian,ZANG Xi-zhe. Multi-robots formation and navigation based reinforcement learning[J]. Journal of Liaoning Technical University (Natural Science Edition), 2007, 26(6): 915-918
Authors:ZHAO Jie  JIANG Jian  ZANG Xi-zhe
Abstract:When multi-robot formation encounters long obstacles in unknown environment, the choice of clock-wise circumambulating or counter clock-wise circumambulating will greatly affect the efficiency of navigation. A kind of reinforcement learning with three levels is presented to solve this problem. The high level is based on be station-behavior pair to learn the circumambulating direction according to the dynamic variational obstacles. The middle level uses a Role-Cross-Subsumption control framework to keep the formation of the multi-robots. The lower level uses the off-line reinforcement learning. Simulation results show that the method can reduce the on-line learning space and speed up the learning rate.The method provides an effective autonomous learning strategy for multi-robot formation and navigation.
Keywords:multi-robot systems   reinforcement learning   formation and navigation   role
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号