基于禁忌搜索的option自动构造 |
| |
引用本文: | 徐明亮,苏晓萍,须文波.基于禁忌搜索的option自动构造[J].系统仿真学报,2009,21(23). |
| |
作者姓名: | 徐明亮 苏晓萍 须文波 |
| |
作者单位: | 1. 江南大学信息工程学院,无锡,214122 2. 湖州师范学院信息工程学院,湖州,313000 |
| |
摘 要: | 通过在环境中设置禁忌状态,agent能够在与环境的交互过程中发现瓶颈状态,以及瓶颈状态之间的毗邻关系.agent根据瓶颈状态之间的毗邻关系,自动地从毗邻的瓶颈状态中挑选合适的瓶颈状态作为option子目标.同时在交互过程中获得Option的初始集,实现option的自动构造.网格环境中的导航实验验证了该方法无需人工干预就可以自动构造有用的option,即可以加快agent学习速度,也便于知识迁移,加快相关任务的学习.
|
关 键 词: | 分层强化学习 Option 子目标 禁忌搜索 Q-1earning |
Automatic Construction of Option Based on Tabu-search |
| |
Abstract: | |
| |
Keywords: | hierarchical reinforcement learning option subgoal tabu search Q-learning |
本文献已被 万方数据 等数据库收录! |
|