一种自适应概率规划规则抽取算法 An Adaptive Rule Extracting Algorithm in Probabilistic Plan期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种自适应概率规划规则抽取算法

引用本文：	高阳,陆鑫,李宁,陈世福.一种自适应概率规划规则抽取算法[J].南京大学学报(自然科学版),2003,39(2):145-152.

作者姓名：	高阳陆鑫李宁陈世福

作者单位：	南京大学计算机软件新技术国家重点实验室，南京210093

基金项目：	国家自然科学基金(69905001,60103012)

摘要：	在已知状态迁移条件下，利用传统概率规划技术能够获得确定的规划规则，而强化学习技术能够在未知环境条件下，利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态－动作对值函数基础上，通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除，并得到子规划剪枝后的状态－动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识，从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明，这种自适应概率规划规则抽取算法是有效的。
关键词：	自适应概率规划规则抽取算法强化学习 Beamsearch算法值函数规划模型
An Adaptive Rule Extracting Algorithm in Probabilistic Plan

Gao Yang,Lu Xing,Li Ning,Chen Shi_Fuiversity,Nanjing,China.An Adaptive Rule Extracting Algorithm in Probabilistic Plan[J].Journal of Nanjing University: Nat Sci Ed,2003,39(2):145-152.

Authors:	Gao Yang Lu Xing Li Ning Chen Shi_Fuiversity Nanjing China

Institution:	Gao Yang,Lu Xing,Li Ning,Chen Shi_Fuiversity,Nanjing,210093,China)

Abstract:

Keywords:	probabilistic planning reinforcement learning rule extract
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏