首页 | 本学科首页   官方微博 | 高级检索  
     

优化策略模型下的匹配律算法
引用本文:程振波,邓志东. 优化策略模型下的匹配律算法[J]. 东南大学学报(自然科学版), 2009, 0(Z1)
作者姓名:程振波  邓志东
作者单位:清华大学智能技术与系统国家重点实验室;清华信息科学与技术国家实验室;清华大学计算机科学与技术系;
基金项目:国家自然科学基金资助项目(60621062,60775040)
摘    要:利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为.

关 键 词:部分可观马尔可夫决策过程  再励学习  优化策略搜索  匹配律  

Algorithm of matching law based on optimal policy search model
Cheng Zhenbo Deng Zhidong. Algorithm of matching law based on optimal policy search model[J]. Journal of Southeast University(Natural Science Edition), 2009, 0(Z1)
Authors:Cheng Zhenbo Deng Zhidong
Affiliation:Cheng Zhenbo Deng Zhidong(State Key Laboratory of Intelligent Technology , Systems,Tsinghua University,Beijing 100084,China)(Tsinghua National Laboratory for Information Science , Technology,China)(Department of Computer Science , Technology,China)
Abstract:Based on the policy search algorithm in partially observable Markov decision process(POMDP),an optimal policy search algorithm is proposed.An algorithm leading to matching law is then derived from the optimal algorithm.The aim of the subject can find a policy parameter that can maximize the expected value of a value function,and the policy parameter is updated on the experience of the subject.Due to the Markov assumption for the environment,the optimal policy algorithm can be obtained from computing the gra...
Keywords:partially observable Markov decision process  reinforcement learning  optimal policy search  matching law  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号