期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

二步马氏折扣模型的最优策略

陈峥《青岛海洋大学学报(自然科学版)》1993,23(1):130-134

相似文献

2.

Пm^d上有界报酬折扣马氏决策模型最优策略的几个...

魏文元《天津师大学报》1990,(1):22-26,31

相似文献

3.

无界报酬折扣模型的最优策略结构

张昇《云南大学学报(自然科学版)》1986,(1)

在Harrison意义下的无界报酬函数折扣模型下,本文讨论了最优策略的几个性质和它的结构。本文证明了:若π~*=(π_1~*,π_2~*,…)是该模型的最优策略,则π_1~(*∞),(π_1~*,…,π_n~*)~∞与(π_1~*,…,π_n~*,π_1~*,π_2~*,…)(n≥1)都是最优策略;给出π_n~*也构成最优随机平稳策略的条件和修改方法;策略π~*=(π_1~*,π_2~*,…)是最优的当且仅当它在任何时刻可达的状态上都必须选取最优决策;最后指出π_0~(*∞)为最优随机平稳策略的充要条件是决策规则π_0~*是若干个最优平稳策略f_n~∞的决策函数f_n的凸组合。从而较完满地解决了Harrison无界报酬意义下折扣模型的最优策略结构问题。相似文献

4.

Π_m~d上有界报酬折扣马氏决策模型最优策略的几个等价条件

魏文元《天津师范大学学报(自然科学版)》1990,(1)

本文讨论了π_m~4上有界报酬折扣马氏决策模型的七个等价条件,从而剖析了最优策略的结构。相似文献

5.

部分可观的马尔可夫决策规划折扣模型的解法

许青松《湖南大学学报(自然科学版)》1995,22(5):16-20

本文将策略迭代－逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε－最优的平稳策略。相似文献

6.

无界报酬向量值折扣马氏决策规划—最优平稳策略及算法

张升张继红《云南大学学报(自然科学版)》1994,16(4):299-305

本文主要讨论了无界报酬向量模型的平稳策略问题，给出了改进平稳策略的方法，建立起向量模型的最优方程，获得平稳策略为强最优策略的充要条件．指出最优平稳策略的期望报酬函数必为极大不动点，最后提出一种寻求最优平稳策略的策略迭代算法．相似文献

7.

无界报酬折扣半马氏决策模型矩最优策略的结构

伍从斌《云南大学学报(自然科学版)》1990,12(4):299-306

本文研究具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型(DSMDM)矩最优策略的结构.证明了:若策略π,σ是(K)矩最优的.则π~nσ及π的任一自组合策略也是(K)矩最优的,且存在与π等价的(K)矩最优策略π~(?),使~nπ~(*hn)为(K)矩最优的;存在(K)矩最优策略的充要条件是(K)矩最优行动集A_K(i)非空;策略π为(K)矩最优当且仅当π_n(A_K(i)|H_n,i)=1,α.e.P_(πn);π为(K)矩最优策略的又一充要条件是它可分解为若干个确定性(K)矩最优策略的一个凸组合.这样,该模型矩最优策略的结构就得到了较完满的解决. 相似文献

8.

二步马氏折扣模型最优策略的结构

陈峥《青岛海洋大学学报(自然科学版)》1993,23(4):146-150

相似文献

9.

一般状态空间无界报酬折扣半马氏决策规划

张升《云南大学学报(自然科学版)》1988,(1)

本文讨论在一般状态和行动空间下,Lippman[1]的无界报酬折扣半马氏决策规划的ε(≥0)最优平稳策略的存在性问题,最优策略的性质及这类模型的不变问题,最后给出在有限行动空间下不变问题最优策略的一种算法。相似文献

10.

首达时间依分布最优模型与风险最小模型

林元烈林建星《清华大学学报(自然科学版)》1996,(2)

研究了离散时间首达时间依分布（随机序）最优模型与风险最小模型。给出存在最优策略的若干充要条件及重要性质,证明最优方程序列存在唯一解,给出寻优的算法。证明了ｍ时段风险最小Ｅ最优策略必定存在。相似文献

11.

无界报酬折扣半马氏决策模型矩最优策略的存在性

伍从斌《云南大学学报(自然科学版)》1991,13(3):199-206

本文在矩最优准则下讨论具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型。对任意ε>0,证明了k阶矩ε-最优平稳策略的存在性,从而一般策略类中的矩最优性等价于平稳策略类中的矩最优性。(k-1)矩最优策略π为(k)矩最优的充要条件是(-1)~(k 1)V_k(π)满足最优方程,这里V_k(π)为使用π时的总折扣报酬的k阶矩。对平稳策略,给出了折扣报酬的各阶矩的递推公式,如果每个状态可用的行动集为有限集,证明了矩最优平稳策略的存在性,并建立了构造所有矩最优平稳策略的迭代算法。相似文献

12.

连续时间Markov控制过程的平均代价最优鲁棒控制策略 总被引：2，自引：0，他引：2

唐昊韩江洪高隽《中国科学技术大学学报》2004,34(2):219-225

在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 相似文献

13.

向量值有限平均MDP

贾让成《西北师范大学学报(自然科学版)》1994,30(3):16-19

讨论了向量值离散时间平均准则下的有限马氏决策模型；在采取确定性平稳策略时所得马氏决策过程为遍历的假设下，证明了存在一个至多在Ｋ－１个状态是随机的平稳最优策略，并给出了其线性规划算法。同时证明了存在强最优策略的充要条件是其存在强确定性平稳最优策略。相似文献

14.

基于离散Markov决策过程的发电公司多阶段决策

张宏刚宋依群《上海交通大学学报》2004,38(8):1238-1240,1245

采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究．市场环境下，发电公司根据自身条件，其竞争策略可以是价格的接受者，也可以是价格的制定者．考虑了发电公司不同策略情况下市场均衡状态间的转换概率，分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型．通过算例验证了所提模型的有效性和可行性．相似文献

15.

动态投资回收期决策模型 总被引：2，自引：0，他引：2

施金亮丁仁才《上海大学学报(自然科学版)》1996,2(6):702-706

本文对房地产开发等类型的投资方案，建立了一种考虑了基准收益率和结合净现值法的动态投资回收期决策模型，作为方案的评价判据，以提高投资决策的正确性和决策过程的效率相似文献

16.

商业银行在贴现消费优化下的行业投资策略

张川潘德惠《东北大学学报(自然科学版)》2002,23(7):648-651

就考虑贴现效用偏好的情况下如何实现一段投资计划期末最大贴现消费效用,提供了一种行业投资分配策略模型·运用此模型,针对相应的行业投资最优控制问题进行了分析,利用极大值原理结合实际经济过程导出了上述问题的最优控制形式,可以对投资资金进行最优控制决策,达到最佳期望投资效果· 相似文献

17.

基于连续时间马尔可夫过程的证券投资策略

崔海波赵希男梁好潘德惠《东北大学学报(自然科学版)》2003,24(11):1100-1103

在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 相似文献

18.

基于Markov链的最优化预测模型及其应用研究 总被引：6，自引：0，他引：6

何江宏陈启明《合肥学院学报(自然科学版)》2006,16(1):11-13

马尔可夫预测方法在预测领域有着广泛的应用.该方法应用的一个重要的问题就是如何估计一步状态转移概率矩阵.在历史资料没有给出系统处于n个状态次数的情况下,给出一步状态转移概率矩阵估计的最优化方法.最后探讨了基于M arkov链的最优化预测模型在长江水质预测中的应用,从而表明该模型的有效性. 相似文献

19.

预序马尔柯夫决策规划

吴吉山《华中科技大学学报(自然科学版)》1987,(Z3)

本文在文献[1]～[3]的基础上,建立了一般意义下的预序模型,并研究了该模型最优策略的结构。文中彻底放弃了状态转移是确定性的假设,将策略从确定性策略类Π~d放宽到一般的随机策略类Π上进行讨论,从而大大地推广了文献[4]的结果。相似文献