首页 | 本学科首页   官方微博 | 高级检索  
     检索      

参数Markov决策过程的随机逼近算法
引用本文:胡光华.参数Markov决策过程的随机逼近算法[J].云南大学学报(自然科学版),2003,25(5):377-380.
作者姓名:胡光华
作者单位:{{if article.pacs && article.pacs != '}}PACS: {{article.pacs}}{{/if}}
基金项目:云南省教育厅基金资助项目(K1050401),云南大学理(工)科校级科研项目资助(K1059040).
摘    要:讨论平均报酬参数马氏决策过程的随机梯度算法,利用与折扣报酬的关系,给出了目标函数的梯度的一个新的表达式.同时得到了基于单一样本路径的随机逼近算法,最后证明了算法以概率1收敛到其梯度.  

关 键 词:参数Markov决策过程    随机逼近    平均报酬  
文章编号:0258-7971(2003)05-0377-04
修稿时间:2003年5月5日

A stochastic approximation for parameters Markov decision processes
HU Guang,hua.A stochastic approximation for parameters Markov decision processes[J].Journal of Yunnan University(Natural Sciences),2003,25(5):377-380.
Authors:HU Guang  hua
Institution:{{if article.pacs && article.pacs != '}}PACS: {{article.pacs}}{{/if}}
Abstract:A stochastic gradient algorithm for average reward Markov decision processes (MDP) that depends on a parameter vector is proposed.A new gradient of the object function is given and a stochastic approximation algorithm that bases on a single sample path is presented.Finally,a convergence of the gradient (with probability 1) is provided.
Keywords:parameters Markov decision processes  stochastic approximation  average rewards  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《云南大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《云南大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号