首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种自适应概率规划规则抽取算法
引用本文:高阳,陆鑫,李宁,陈世福.一种自适应概率规划规则抽取算法[J].南京大学学报(自然科学版),2003,39(2):145-152.
作者姓名:高阳  陆鑫  李宁  陈世福
作者单位:南京大学计算机软件新技术国家重点实验室,南京210093
基金项目:国家自然科学基金(69905001,60103012)
摘    要:在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则,而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态-动作对值函数基础上,通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除,并得到子规划剪枝后的状态-动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识,从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明,这种自适应概率规划规则抽取算法是有效的。

关 键 词:自适应  概率规划  规则抽取算法  强化学习  Beamsearch算法  值函数  规划模型

An Adaptive Rule Extracting Algorithm in Probabilistic Plan
Gao Yang,Lu Xing,Li Ning,Chen Shi_Fuiversity,Nanjing,China.An Adaptive Rule Extracting Algorithm in Probabilistic Plan[J].Journal of Nanjing University: Nat Sci Ed,2003,39(2):145-152.
Authors:Gao Yang  Lu Xing  Li Ning  Chen Shi_Fuiversity  Nanjing    China
Institution:Gao Yang,Lu Xing,Li Ning,Chen Shi_Fuiversity,Nanjing,210093,China)
Abstract:
Keywords:probabilistic planning  reinforcement learning  rule extract
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号