首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于禁忌搜索的option自动构造
引用本文:徐明亮,苏晓萍,须文波.基于禁忌搜索的option自动构造[J].系统仿真学报,2009,21(23).
作者姓名:徐明亮  苏晓萍  须文波
作者单位:1. 江南大学信息工程学院,无锡,214122
2. 湖州师范学院信息工程学院,湖州,313000
摘    要:通过在环境中设置禁忌状态,agent能够在与环境的交互过程中发现瓶颈状态,以及瓶颈状态之间的毗邻关系.agent根据瓶颈状态之间的毗邻关系,自动地从毗邻的瓶颈状态中挑选合适的瓶颈状态作为option子目标.同时在交互过程中获得Option的初始集,实现option的自动构造.网格环境中的导航实验验证了该方法无需人工干预就可以自动构造有用的option,即可以加快agent学习速度,也便于知识迁移,加快相关任务的学习.

关 键 词:分层强化学习  Option  子目标  禁忌搜索  Q-1earning

Automatic Construction of Option Based on Tabu-search
Abstract:
Keywords:hierarchical reinforcement learning  option  subgoal  tabu search  Q-learning
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号