参数Markov决策过程的随机逼近算法 A stochastic approximation for parameters Markov decision processes期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

参数Markov决策过程的随机逼近算法

引用本文：	胡光华.参数Markov决策过程的随机逼近算法[J].云南大学学报(自然科学版),2003,25(5):377-380.

作者姓名：	胡光华

作者单位：	{{if article.pacs && article.pacs != '}}PACS: {{article.pacs}}{{/if}}

基金项目：	云南省教育厅基金资助项目(K1050401)，云南大学理(工)科校级科研项目资助(K1059040).

摘要：	讨论平均报酬参数马氏决策过程的随机梯度算法,利用与折扣报酬的关系,给出了目标函数的梯度的一个新的表达式.同时得到了基于单一样本路径的随机逼近算法,最后证明了算法以概率1收敛到其梯度.
关键词：	参数Markov决策过程随机逼近平均报酬
文章编号：	0258-7971(2003)05-0377-04
修稿时间：	2003年5月5日
A stochastic approximation for parameters Markov decision processes

HU Guang,hua.A stochastic approximation for parameters Markov decision processes[J].Journal of Yunnan University(Natural Sciences),2003,25(5):377-380.

Authors:	HU Guang hua

Institution:	{{if article.pacs && article.pacs != '}}PACS: {{article.pacs}}{{/if}}

Abstract:	A stochastic gradient algorithm for average reward Markov decision processes (MDP) that depends on a parameter vector is proposed.A new gradient of the object function is given and a stochastic approximation algorithm that bases on a single sample path is presented.Finally,a convergence of the gradient (with probability 1) is provided.

Keywords:	parameters Markov decision processes stochastic approximation average rewards
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《云南大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《云南大学学报(自然科学版)》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏