首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文建立了一类无界向量值报酬折扣马氏决策规划,在一组无关向量生成的凸锥确定的序关系下,讨论了模型最优策略的存在性;给出强最优策略存在的必要充分条件;指出最优策略的自组合、凸组合策咯仍是最优策略;还证明了平稳策略在一般策略类中的优势。  相似文献   

2.
本文研究了有界报酬折扣模型的ε最优策略性质和结构,讨论了平稳最优策略的凸组合和最优随机平稳策略分解为平稳策略的问题,并证明了若随机平稳策略π_0~∞为ε最优的,则对任给的ε_1>0,都存在一个与π_0~∞有关的f,使f~∞为[(1-β)~(-1)ε_1+ε]最优的。  相似文献   

3.
本文在矩最优准则下讨论具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型。对任意ε>0,证明了k阶矩ε-最优平稳策略的存在性,从而一般策略类中的矩最优性等价于平稳策略类中的矩最优性。(k-1)矩最优策略π为(k)矩最优的充要条件是(-1)~(k 1)V_k(π)满足最优方程,这里V_k(π)为使用π时的总折扣报酬的k阶矩。对平稳策略,给出了折扣报酬的各阶矩的递推公式,如果每个状态可用的行动集为有限集,证明了矩最优平稳策略的存在性,并建立了构造所有矩最优平稳策略的迭代算法。  相似文献   

4.
在Harrison意义下的无界报酬函数折扣模型下,本文讨论了最优策略的几个性质和它的结构。本文证明了:若π~*=(π_1~*,π_2~*,…)是该模型的最优策略,则π_1~(*∞),(π_1~*,…,π_n~*)~∞与(π_1~*,…,π_n~*,π_1~*,π_2~*,…)(n≥1)都是最优策略;给出π_n~*也构成最优随机平稳策略的条件和修改方法;策略π~*=(π_1~*,π_2~*,…)是最优的当且仅当它在任何时刻可达的状态上都必须选取最优决策;最后指出π_0~(*∞)为最优随机平稳策略的充要条件是决策规则π_0~*是若干个最优平稳策略f_n~∞的决策函数f_n的凸组合。从而较完满地解决了Harrison无界报酬意义下折扣模型的最优策略结构问题。  相似文献   

5.
研究无界报酬折扣半马氏决策规划问题.证明了: 策略π·=(π1·,π2·,…πn·,π·n+1,…)是最优策略,则π1·(∞)及(π1·,π2·,…,πn·)(∞)对同一折扣因子函数也是最优的,对任给的整数n≥1,在一定的条件下,πn·(∞)也是最优的;证明了若最优策略存在,必存在最优平稳策略;证明了ε最优平稳策略的存在性。  相似文献   

6.
对于状态空间为可列集、行为空间为任意非空集、报酬函数为有界的折扣模型,本文用初等方法反而比用传统方法更快地获得了标准的结果:存在一个平稳策略是ε最优的;最优值函数是最优方程的唯一有界解。这表明用初等方法来研究该模型ε(≥0)最优策略的性质和结构是完全可行的。  相似文献   

7.
本文讨论在一般状态和行动空间下,Lippman[1]的无界报酬折扣半马氏决策规划的ε(≥0)最优平稳策略的存在性问题,最优策略的性质及这类模型的不变问题,最后给出在有限行动空间下不变问题最优策略的一种算法。  相似文献   

8.
连续时间折扣模型最优策略的结构   总被引:2,自引:0,他引:2  
本文研究了连续时间马氏决策规划折扣模型在(c)上最优策略的若干重要性质和它的结构。由于引进了映像及,使证明大为简化。特别是证明了:一随机平稳策略,它在(c)上是最优的充要条件是它可表为若干个决定性平稳最优策略的凸组合。  相似文献   

9.
对经理长期报酬和短期报酬的优化组合激励问题进行了探讨。通过分析建立了组合激励的两阶段搏弈模型,求解模型得到了最优报酬组合。结合构成最优报酬组合的各参数的含义,探讨了它们对最优报酬组合的影响。  相似文献   

10.
本文讨论了状态空间可列、行动集为一般点集且具有多项式无界报酬率的连续时间平均马氏决策问题。在对折扣最优报酬函数的适当假设下,证明了平稳最优策略的存在性,所用的条件比以往的工作弱得多。  相似文献   

11.
研究了半马氏MDP平均模型,提出了新的较弱的假设条件,证明了半马氏MDP平均模型最优方程解的存在性,然后从最优方程出发,证明了存在ε(≥0)-最优平稳策略。  相似文献   

12.
讨论了向量值离散时间平均准则下的有限马氏决策模型;在采取确定性平稳策略时所得马氏决策过程为遍历的假设下,证明了存在一个至多在K-1个状态是随机的平稳最优策略,并给出了其线性规划算法。同时证明了存在强最优策略的充要条件是其存在强确定性平稳最优策略。  相似文献   

13.
本文讨论了离散参数马氏规划(简记为DTMDP)的最优策略存在问题,对状态空间和行动集均为可列集的模型,给出了保证平稳最优策略存在的条件。  相似文献   

14.
给出了观察过程状态数为可数时,部分可观的马尔可夫决策规划(POMDP)折扣模型的逼近法和算法,算法保证了能求到ε-最优的平稳策略和ε-最优的期望费用函数。  相似文献   

15.
本文在状态集可数、行动集任意的条件下,讨沦报酬函数满足一种推广的绝对平均相对有界的非时齐折扣马氏决策规划;建立了模型的最优方程,证明了ε(>0)最优马氏策略的存在性;最后给出最优策略(最优马氏策略)存在的必要充分条件.  相似文献   

16.
§1.引言一个策略是否最优,是看其期望折扣总报酬,即一阶矩向量是否按分量都达到最大;若同时有若干个策略都是最优的,这些策略中最好的自然是方差,即二阶矩是最小的;若这样的策略仍不止一个,则讨论三阶矩,四阶矩等等,于是形成了前K阶矩最优策略问题。关于这个问题,董泽清[3],郭世贞[4],林元烈[5],伍从斌[6]等已做了不  相似文献   

17.
高等教育投资具有“双层”的特点,上层为主管部门,下层为高等学校.分析了优先发展策略下高等教育最优投资的层次及步骤,分别建立了保证优先发展学校最优投资和用剩余资金对全部学校无差别最优投资双层规划模型,给出了上、下层最优投资方案的确定方法.通过扩大可行解范围,将双层规划模型转换为单层线性规划模型,证明了两者最优解的等价性,设计了求得模型最优解的多项式算法,最后给出了应用举例.  相似文献   

18.
本文研究了报酬函数与时间有关的MDP模型,推广了[1]文献中相应的结果.文中在放弃了文献[2]、[3]中某些限制条件的情况下,讨论最优周期策略、ε最优周期策略的存在性,并给出算法.  相似文献   

19.
为研究两个不同部件和两个修理工组成的可修冷贮备系统的维修更换策略,在故障部件都不能修复如新的条件下,利用几何过程和更新报酬定理,以系统中部件1的故障次数N为更换策略,得到系统长期运行单位时间平均费用的表达式.研究结果:通过数值算例求出其最优更换策略;在最优更换策略下比较两个修理工模型与一个修理工模型长期运行单位时间最优平均费用,得到一些数值结果.  相似文献   

20.
本文讨论一类非时齐折扣马氏决策规划的总折扣报酬的k(≥1)矩和矩最优问题,得到k矩和矩最优策略存在的一个充要条件;并将k矩最优问题化为同类型的一个马氏决策规划的一阶矩最优问题,从而也解决了这类模型的k矩最优策略的结构问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号