期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

本文研究具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型(DSMDM)矩最优策略的结构.证明了:若策略π,σ是(K)矩最优的.则π~nσ及π的任一自组合策略也是(K)矩最优的,且存在与π等价的(K)矩最优策略π~(?),使~nπ~(*hn)为(K)矩最优的;存在(K)矩最优策略的充要条件是(K)矩最优行动集A_K(i)非空;策略π为(K)矩最优当且仅当π_n(A_K(i)|H_n,i)=1,α.e.P_(πn);π为(K)矩最优策略的又一充要条件是它可分解为若干个确定性(K)矩最优策略的一个凸组合.这样,该模型矩最优策略的结构就得到了较完满的解决. 相似文献

6.

无界报酬折扣半马氏决策模型矩最优策略的存在性

伍从斌《云南大学学报(自然科学版)》1991,13(3):199-206

本文在矩最优准则下讨论具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型。对任意ε>0,证明了k阶矩ε-最优平稳策略的存在性,从而一般策略类中的矩最优性等价于平稳策略类中的矩最优性。(k-1)矩最优策略π为(k)矩最优的充要条件是(-1)~(k 1)V_k(π)满足最优方程,这里V_k(π)为使用π时的总折扣报酬的k阶矩。对平稳策略,给出了折扣报酬的各阶矩的递推公式,如果每个状态可用的行动集为有限集,证明了矩最优平稳策略的存在性,并建立了构造所有矩最优平稳策略的迭代算法。相似文献

7.

一般状态空间无界报酬折扣半马氏决策规划

张升《云南大学学报(自然科学版)》1988,(1)

本文讨论在一般状态和行动空间下,Lippman[1]的无界报酬折扣半马氏决策规划的ε(≥0)最优平稳策略的存在性问题,最优策略的性质及这类模型的不变问题,最后给出在有限行动空间下不变问题最优策略的一种算法。相似文献

8.

周期马氏决策规划及其线性规划算法

贾让成《西北师范大学学报(自然科学版)》1990,26(3):8-11

讨论了折扣周期马氏决策模型的最优策略的结构,并给出了其线性规划算法. 相似文献

9.

向量值有限平均MDP

贾让成《西北师范大学学报(自然科学版)》1994,30(3):16-19

讨论了向量值离散时间平均准则下的有限马氏决策模型；在采取确定性平稳策略时所得马氏决策过程为遍历的假设下，证明了存在一个至多在Ｋ－１个状态是随机的平稳最优策略，并给出了其线性规划算法。同时证明了存在强最优策略的充要条件是其存在强确定性平稳最优策略。相似文献

10.

半马氏MDP平均模型

邱德华《衡阳师专学报》1998,19(3):1-7

研究了半马氏ＭＤＰ平均模型，提出了新的较弱的假设条件，证明了半马氏ＭＤＰ平均模型最优方程解的存在性，然后从最优方程出发，证明了存在ε（≥０）－最优平稳策略。相似文献