共查询到19条相似文献,搜索用时 171 毫秒
1.
2.
3.
张昇 《云南大学学报(自然科学版)》1986,(1)
在Harrison意义下的无界报酬函数折扣模型下,本文讨论了最优策略的几个性质和它的结构。本文证明了:若π~*=(π_1~*,π_2~*,…)是该模型的最优策略,则π_1~(*∞),(π_1~*,…,π_n~*)~∞与(π_1~*,…,π_n~*,π_1~*,π_2~*,…)(n≥1)都是最优策略;给出π_n~*也构成最优随机平稳策略的条件和修改方法;策略π~*=(π_1~*,π_2~*,…)是最优的当且仅当它在任何时刻可达的状态上都必须选取最优决策;最后指出π_0~(*∞)为最优随机平稳策略的充要条件是决策规则π_0~*是若干个最优平稳策略f_n~∞的决策函数f_n的凸组合。从而较完满地解决了Harrison无界报酬意义下折扣模型的最优策略结构问题。 相似文献
4.
5.
许青松 《湖南大学学报(自然科学版)》1995,22(5):16-20
本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε-最优的平稳策略。 相似文献
6.
本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭代算法. 相似文献
7.
伍从斌 《云南大学学报(自然科学版)》1990,12(4):299-306
本文研究具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型(DSMDM)矩最优策略的结构.证明了:若策略π,σ是(K)矩最优的.则π~nσ及π的任一自组合策略也是(K)矩最优的,且存在与π等价的(K)矩最优策略π~(?),使~nπ~(*hn)为(K)矩最优的;存在(K)矩最优策略的充要条件是(K)矩最优行动集A_K(i)非空;策略π为(K)矩最优当且仅当π_n(A_K(i)|H_n,i)=1,α.e.P_(πn);π为(K)矩最优策略的又一充要条件是它可分解为若干个确定性(K)矩最优策略的一个凸组合.这样,该模型矩最优策略的结构就得到了较完满的解决. 相似文献
8.
9.
本文给出了单一变质物品的存储模型,并求出此时的最优订货策略;并研究了两种价格折扣时的情况,得出了在这两种情况下的带有价格折扣的存储模型的最优订货策略。 相似文献
10.
张升 《云南大学学报(自然科学版)》1988,(1)
本文讨论在一般状态和行动空间下,Lippman[1]的无界报酬折扣半马氏决策规划的ε(≥0)最优平稳策略的存在性问题,最优策略的性质及这类模型的不变问题,最后给出在有限行动空间下不变问题最优策略的一种算法。 相似文献
11.
伍从斌 《云南大学学报(自然科学版)》1991,13(3):199-206
本文在矩最优准则下讨论具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型。对任意ε>0,证明了k阶矩ε-最优平稳策略的存在性,从而一般策略类中的矩最优性等价于平稳策略类中的矩最优性。(k-1)矩最优策略π为(k)矩最优的充要条件是(-1)~(k 1)V_k(π)满足最优方程,这里V_k(π)为使用π时的总折扣报酬的k阶矩。对平稳策略,给出了折扣报酬的各阶矩的递推公式,如果每个状态可用的行动集为有限集,证明了矩最优平稳策略的存在性,并建立了构造所有矩最优平稳策略的迭代算法。 相似文献
12.
连续时间Markov控制过程的平均代价最优鲁棒控制策略 总被引:2,自引:0,他引:2
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 相似文献
13.
贾让成 《西北师范大学学报(自然科学版)》1994,30(3):16-19
讨论了向量值离散时间平均准则下的有限马氏决策模型;在采取确定性平稳策略时所得马氏决策过程为遍历的假设下,证明了存在一个至多在K-1个状态是随机的平稳最优策略,并给出了其线性规划算法。同时证明了存在强最优策略的充要条件是其存在强确定性平稳最优策略。 相似文献
14.
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 相似文献
15.
动态投资回收期决策模型 总被引:2,自引:0,他引:2
本文对房地产开发等类型的投资方案,建立了一种考虑了基准收益率和结合净现值法的动态投资回收期决策模型,作为方案的评价判据,以提高投资决策的正确性和决策过程的效率 相似文献
16.
就考虑贴现效用偏好的情况下如何实现一段投资计划期末最大贴现消费效用,提供了一种行业投资分配策略模型·运用此模型,针对相应的行业投资最优控制问题进行了分析,利用极大值原理结合实际经济过程导出了上述问题的最优控制形式,可以对投资资金进行最优控制决策,达到最佳期望投资效果· 相似文献
17.
针对炼钢厂连铸机开浇时是否连浇以及开浇时间确定等问题,从钢厂生产线上待加工的铁水/钢水金属资源平衡的角度,建立了以连铸生产总效益最大为目标函数的连铸机开浇决策的混合整数规划模型,并用基于MATLAB软件的YALMIP优化工具进行模型的求解.针对某钢厂的实际情况进行模型的应用测试,结果表明:模型可以优化决策连铸机各浇次的开浇时间,有助于编制合理的炼钢厂生产调度作业计划,稳定各班次之间的生产条件,降低生产线上的积压金属量,为炼钢厂连铸机的有序开浇提供了技术手段. 相似文献
18.
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 相似文献
19.
基于Markov链的最优化预测模型及其应用研究 总被引:6,自引:0,他引:6
马尔可夫预测方法在预测领域有着广泛的应用.该方法应用的一个重要的问题就是如何估计一步状态转移概率矩阵.在历史资料没有给出系统处于n个状态次数的情况下,给出一步状态转移概率矩阵估计的最优化方法.最后探讨了基于M arkov链的最优化预测模型在长江水质预测中的应用,从而表明该模型的有效性. 相似文献