首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
本文讨论在一般状态和行动空间下,Lippman[1]的无界报酬折扣半马氏决策规划的ε(≥0)最优平稳策略的存在性问题,最优策略的性质及这类模型的不变问题,最后给出在有限行动空间下不变问题最优策略的一种算法。  相似文献   

2.
本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε-最优的平稳策略。  相似文献   

3.
本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭代算法.  相似文献   

4.
本文在状态集可数、行动集任意的条件下,讨沦报酬函数满足一种推广的绝对平均相对有界的非时齐折扣马氏决策规划;建立了模型的最优方程,证明了ε(>0)最优马氏策略的存在性;最后给出最优策略(最优马氏策略)存在的必要充分条件.  相似文献   

5.
6.
连续时间折扣模型最优策略的结构   总被引:2,自引:0,他引:2  
本文研究了连续时间马氏决策规划折扣模型在(c)上最优策略的若干重要性质和它的结构。由于引进了映像及,使证明大为简化。特别是证明了:一随机平稳策略,它在(c)上是最优的充要条件是它可表为若干个决定性平稳最优策略的凸组合。  相似文献   

7.
8.
本文讨论了π_m~4上有界报酬折扣马氏决策模型的七个等价条件,从而剖析了最优策略的结构。  相似文献   

9.
文[1]给出了求线性等式与变量非负约束不可微凸规划近似解的一个算法。该算法不论是近代过程还是收敛性证明都强烈地依赖约束集非退化这个条件,本文放弃非退化假设,设计了一个近似解的迭代算法,并证明了算法有限次迭代后终止于所考虑问题的一个近似解点。  相似文献   

10.
以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观测马尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并利用最优策略可达空间的连续近似法(SARSOP)进行求解。将电子支援措施(ESM)的观测值输出与电子干扰措施(ECM)的优化策略相结合,提出了一种基于POMDP的电子对抗资源实时调度优化算法。仿真结果表明,该方法能够实现目标状态不确定情况下的干扰资源有效调度,相比现有的调度策略,可以使导引头更多维持在搜索状态,更少停留在稳定跟踪状态。  相似文献   

11.
针对当前认知无线电动态频谱接入算法实现复杂度高的缺点,提出了在硬件受限制的情况下,基于部分可观察马尔科夫决策过程的动态频谱接入算法.该算法利用多次对外界信道的检测得到对外界环境的估计,然后根据此估计以当前和未来收益总和最大化为目标,实频谱接入,并实现了最优解和贪心法次优解.该算法比随机检测接入算法多获得约25%的带宽,贪心法的次优解在阶段数较少时与最优解性能非常接近.  相似文献   

12.
部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬.  相似文献   

13.
研究了当保费率随理赔强度的变化而变化时,Cox风险模型的折现罚金函数,利用后向差分法得到了折现罚金函数以及破产概率所满足的积分方程.最后给出当理赔额服从指数分布,理赔强度为两状态的马氏过程时破产概率的拉普拉斯变换.  相似文献   

14.
引入一类带有关卡红利策略的经典风险模型.在这种策略下,若保险公司的盈余不高于某给定水平,则无红利支付;若保险公司的盈余高于某给定水平,则按不大于保费率的一常数支付率支付红利.就利息力为常数的情形,给出该模型下破产时刻罚金折现期望满足的积分-微分方程.  相似文献   

15.
RH过程控制中合金化的计算是一个很重要的问题,在保证获取目标产品性能的同时,要尽量使添加合金的费用最低。采用线性规划中的单纯形算法进行合金化计算,结果达到了预期目标。  相似文献   

16.
研究了多险种多复合Poisson-Geometric过程的常利率风险模型,得到了折现惩罚期望函数所满足的更新方程,在此基础上,对经典风险理论中的一些结果作了进一步的讨论。  相似文献   

17.
考虑了一类混杂分红的稀疏风险模型.在该模型下得到了期望折现罚金函数所满足的积分方程,积分微分方程,以及递归公式.  相似文献   

18.
一类Cox风险模型下的罚金函数   总被引:1,自引:1,他引:0  
考虑了索赔来到的时间间隔和索赔量受外部环境干扰的Cox风险模型.通过求拉氏变换的方法分析了折扣罚金函数,并求出了零初始金时罚金函数的具体表示.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号