首页 | 本学科首页   官方微博 | 高级检索  
     

向量值半Markov决策规划
作者姓名:刘克
作者单位:中国科学院应用数学研究所,中国科学院应用数学研究所 北京 100080,北京 100080
摘    要:关于向量值Markov决策规划,文献[1]研究了有限阶段与无限阶段模型之间的关系。文献[2,3]将标量模型的策略迭代算法推广到向量模型,给出了求最优策略的算法。其算法大致叙述如下:从任一平稳策略出发,在平稳策略类中不断进行策略迭代改进,求得不动点及其周围的可疑点,然后从可疑点开始迭代改进。上述过程反复进行,直到考察完所有平稳策略为止。最后在求出的不动点集合Γ中用穷举法求出全部最优策略。

关 键 词:马氏决策规划 最优策略 平稳策略
本文献已被 CNKI 维普 等数据库收录!
点击此处可从《科学通报》浏览原始摘要信息
点击此处可从《科学通报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号