首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于Q学习算法的发电公司决策新模型   总被引:2,自引:0,他引:2  
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策.  相似文献   

2.
参数Markov决策过程的随机逼近算法   总被引:1,自引:1,他引:0  
讨论平均报酬参数马氏决策过程的随机梯度算法,利用与折扣报酬的关系,给出了目标函数的梯度的一个新的表达式.同时得到了基于单一样本路径的随机逼近算法,最后证明了算法以概率1收敛到其梯度.    相似文献   

3.
论文在Markov性能势理论基础上,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法,分析了它们在一个无限长的样本轨道上概率1的收敛性,并给出了一个三-状态受控Markov过程的数值实例。  相似文献   

4.
提出了一种有限规划水平部分可观、不确定Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行"学习”,通过最小决策失误概率的参数决策实现参数估计,在参数估计的基础上进行控制决策从而以最大概率实现最优决策.文中证明了决策算法的收敛性.仿真结果表明了决策算法的有效性.  相似文献   

5.
为了更好地保障集束型晶圆制造设备运行的可靠性,同时考虑维护的经济性,建立了基于Markov过程的预防性维护策略.根据集束型设备的特点,采用大修和小修相结合的预防性维护方式,同时考虑随机失效和退化失效两种失效形式,建立了状态转移模型.依据Markov理论求得设备各状态的稳态概率及状态转移概率.再根据Markov决策理论及策略迭代算法求得最佳维护策略.实验结果表明,所提出的预防性维护策略有效可行.  相似文献   

6.
近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA的反例表示问题,首先将PTA的语义表示为Markov决策过程(MDP),通过策略解决MDP不确定性,将MDP转换为离散时间Markov链(DTMC);然后将DTMC转换为带权有向图,则PTA中最小反例问题转化为带权有向图中最短路径问题;最后采用正则表达式表示求得的反例.  相似文献   

7.
证明了两参数Markov过程仅在正位矩形的有限并或可列并区域上才具有Sharp Markov性.  相似文献   

8.
多阶段决策过程优化问题已成为运筹学、系统工程等课程必讲内容,但是至今在讲述这一问题的优化方法时,还都依据R.E.Bellman提出的所谓“最优性原则”。本文则对这一优化方法给出数学上的证明。  相似文献   

9.
10.
建立了并行开发过程模型,构造了对应的随机Petri网模型及与之同构的Markov链,基于马尔科夫过程的稳态概率求解了系统的性能参数,分析比较了两系统资源利用合理性及系统的平均延迟时间.  相似文献   

11.
社团的演化往往是复杂多变的,如何对这些嵌入在网络中的社团进行个性化干预,使得不同的社团朝着不同的既定方向演化的研究逐渐成为社交网络领域的一个重要问题.在社团演化的干预框架下,基于状态转移视角,提出了基于马尔可夫决策过程的社团演化干预模型.该模型通过对社团状态维度分数与干预目标的综合考虑,确立社团演化过程与马尔可夫决策过程的对应关系,对社团演化中的状态、动作、回报进行精细建模,同时将社团演化期望回报与研究者的奖励相对应,对马尔可夫决策过程求解,实现对社团演化的干预.在不同社团数据集上的实验结果表明,基于马尔可夫决策过程的干预模型能够对社团的演化进行有效的干预.  相似文献   

12.
研究一类保费和理赔额均为随机变量、利率为马氏链的离散时间风险模型的破产概率,推出了有限时间和最终时间破产概率的递归方程,并用归纳法得到最终时间破产概率的上界估计.  相似文献   

13.
连续时间折扣模型最优策略的结构   总被引:2,自引:0,他引:2  
本文研究了连续时间马氏决策规划折扣模型在(c)上最优策略的若干重要性质和它的结构。由于引进了映像及,使证明大为简化。特别是证明了:一随机平稳策略,它在(c)上是最优的充要条件是它可表为若干个决定性平稳最优策略的凸组合。  相似文献   

14.
马尔可夫决策过程在防空系统目标分配中的应用   总被引:1,自引:3,他引:1  
综合考虑了目标分配中的一些重要问题,将马尔可夫决策过程理论应用于目标分配决策中,这种方法充分考虑了攻防对抗这个动态系统本身的特征,避免出现发射平台工作饱和,使决策的长期效益趋于最优。  相似文献   

15.
提出一种新的Markov递推算法,该算法主要是基于过程噪声的离散小波变换的协方差矩阵及其Cholesky分解因子具有特殊稀疏带状结构的事实,利用模型输出误差的小波变换在线估计出其协方差矩阵及其Cholesky分解因子Lcw,进而利用Lew对数据进行白色化处理。数值仿真验证了所提算法是可行的。  相似文献   

16.
为了适应嵌入式通信系统的资源匮乏性、多因素、异构性和对等性等特点,提出了动态多因素马尔可夫决策路由(DMMDR)算法,分析了算法的时间和空间复杂度,并设计了路由的建立过程和链路状态的更新策略.研究结果表明,该算法能综合考虑各种因素,均衡和减少计算量和存储需求,并避免环路的产生.  相似文献   

17.
短时离散Walsh变换的快速算法   总被引:2,自引:0,他引:2  
在对传统快速离散Walsh变换算法(FWT)进行分析的基础上,充分考虑实时信号和提取局部特征等应用场合的特点,结合FWT算法的性质,提出了短时离散Walsh变换(STDWT)的概念及其快速算法,使加减运算次数进一步减到最少。与传统FWT相比,速度有了明显的提高。最后给出了该算法与传统算法比较的实验数据。  相似文献   

18.
研究了带马尔科夫链利率的完全离散时间风险模型的有限时间和最终时间破产概率,给出了破产概率的递归方程和积分方程.当利率非负时,用鞅方法给出了推广的最终时间破产概率的Lundberg不等式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号