向量值半Markov决策规划期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

向量值半Markov决策规划

作者姓名：	刘克

作者单位：	中国科学院应用数学研究所，中国科学院应用数学研究所北京 100080，北京 100080

摘要：	关于向量值Markov决策规划,文献[1]研究了有限阶段与无限阶段模型之间的关系。文献[2,3]将标量模型的策略迭代算法推广到向量模型,给出了求最优策略的算法。其算法大致叙述如下:从任一平稳策略出发,在平稳策略类中不断进行策略迭代改进,求得不动点及其周围的可疑点,然后从可疑点开始迭代改进。上述过程反复进行,直到考察完所有平稳策略为止。最后在求出的不动点集合Γ中用穷举法求出全部最优策略。
关键词：	马氏决策规划最优策略平稳策略
本文献已被 CNKI 维普等数据库收录！
	点击此处可从《科学通报》浏览原始摘要信息
	点击此处可从《科学通报》下载全文