首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性.最后给出了一个数值例子来说明算法的应用.  相似文献   

2.
根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空间往往非常大,因此通常的串行仿真算法可能会耗时过长,或由于硬件限制而无法实现.针对这些问题,提出了一种基于性能势的并行仿真优化算法,以期寻找系统的最优平稳策略,并用该算法对性能势的仿真和策略寻优分别进行了并行化,获得了较好的运行效率.仿真实例表明了该算法的有效性.这一算法可应用于大规模实际半Markov系统的性能优化.  相似文献   

3.
从连续时间Markov链(CTMC)性能势的角度,借助于定义的折扣Poisson方程,给出了CTMC基于性能势的灵敏度公式及折扣代价准则(简称折扣准则)下的最优性方程.此外,建立了在折扣准则与无穷时间平均代价准则(简称平均准则)下灵敏度公式及最优性方程之间的联系.  相似文献   

4.
论文在Markov性能势理论基础上,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法,分析了它们在一个无限长的样本轨道上概率1的收敛性,并给出了一个三-状态受控Markov过程的数值实例。  相似文献   

5.
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能.  相似文献   

6.
针对复杂应用环境中无线接入网负载高波动的特点,提出一种多路载频动态开启的系统级功耗控制策略,在满足多类业务QoS的同时,降低系统基站的能耗.构建基于连续时间Markov控制过程的系统分析模型,将动态载频开启节能控制转化为一个带约束的优化问题.结合性能势估计与随机逼近,提出一种基于策略迭代的在线自适应策略优化算法.仿真实验结果验证了方法的有效性.  相似文献   

7.
对于网络诱发延迟大于一个采样周期的网络化控制系统,该文研究了该系统的线性二次Gauss(LQG)随机最优控制问题,提出了一种新的分时控制模式.这种控制模式充分利用了系统信息并能改善系统的性能.在该控制模式下建立了网络化控制系统的随机数学模型.该文还讨论了网络化控制系统中传输延迟的Markov特性,基于这种Markov链理论,设计了具有完全状态信息的系统线性二次Gauss随机最优控制器.仿真结果验证了该分时控制模式比没考虑延迟的优化控制和没充分利用控制量的控制模式有更好的控制效果.  相似文献   

8.
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CTMDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特...  相似文献   

9.
利用随机控制的Lyapunov设计方法,研究了一类带Markov跳跃参数的随机非线性混合系统的鲁棒控制问题.给出了受方差不确定的Wiener噪声干扰的跳跃严格反馈系统的镇定设计,该设计可使稳态误差在4阶矩意义下收敛到一个小范围内.  相似文献   

10.
基于Markov链的MCUSUM控制图链长分析   总被引:1,自引:0,他引:1  
平均链长(ARL)作为评价控制图性能的一个重要指标,对其进行深入的研究是控制图参数设计、性能评价及实际应用的基础。在多元向量累积(MCUSUM)控制图的基础上,研究了样本协方差已知、过程受控条件下该控制图的ARL以及链长分布的计算方法。采用Matlab计算平台,该文给出了该方法以及仿真法的程序实现,对比研究了两种方法的计算结果及算法收敛性。研究表明Markov链法为渐进收敛,适用于控制图的参数设计和链长的分布计算;仿真法为波动收敛,其更适用于过程存在偏移时控制图的ARL计算。  相似文献   

11.
针对一类带有随机时延的输入受限多面体不确定网络控制系统,提出了一种鲁棒模型预测控制算法.假设随机网络时延为Markov链,并考虑Min-Max无穷时域性能指标,用线性矩阵不等式方法给出了依赖于模态的状态反馈控制器.基于Lyapunov方法,得到了保证可行性和鲁棒随机稳定性的条件.仿真结果验证了算法的有效性.  相似文献   

12.
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略的迭代算法,并在迭代过程中引入遗传算法,以提高全局优化能力。数值例子表明,基于遗传算法的策略迭代应用于鲁棒决策问题中具有较好的优化效果。  相似文献   

13.
讨论了含饱和执行器的不确定离散马尔可夫跳跃奇异系统的鲁棒H∞控制问题.首先,给出了一个保证离散马尔可夫跳跃奇异系统正则、因果、有界状态稳定且满足 H∞性能的充分条件.然后,在此条件下,解决了不确定系统的鲁棒 H∞饱和控制问题,并基于线性矩阵不等式(LMI),给出了鲁棒 H∞状态反馈控制器的设计方法.最后,用一个数值算例验证了本文方法的有效性.  相似文献   

14.
一种在线自适应控制马氏链的强化学习算法   总被引:2,自引:2,他引:0  
讨论平均准则控制马氏链的强化学习算法。目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略,由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法,通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略。行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略。评判器用来估计这些参数以找出最优控制策略。  相似文献   

15.
为了保持鲁棒稳定且满足一定的性能指标要求, 对具有范数有界不确定性参数的不确定时滞奇异摄动控制系统, 进行保性能控制分析。利用Lyapunov 稳定性理论及矩阵分析方法, 设计系统二次性能指标, 构造了Lyapunov-Krasovskii 泛函, 给出了系统鲁棒稳定的充分条件求解定理以及状态反馈保性能控制律, 得到了性能指标最小上界, 均用线性矩阵不等式形式给出。数值样例表明, 该方法对所研究系统保性能控制有效, 可推广到多状态滞后以及时变滞后的不确定系统的保性能控制问题。  相似文献   

16.
一种面向逆向物流的库存控制策略   总被引:1,自引:0,他引:1  
基于需求和返回是相互独立泊松过程的假设,将(R,Q)库存策略控制下的逆向物流库存系统建模成马尔可夫链,并依此对逆向物流库存系统的稳态表现进行分析,得到了系统的总成本期望值函数.论述了最优控制参数的优化方法,并通过数值算例考察了产品返回过程对系统最优总成本的影响.  相似文献   

17.
一类具有Markov跳跃参数的不确定混合系统滑模控制   总被引:1,自引:0,他引:1  
针对一类具有Markov跳跃参数的不确定混合系统,基于滑模控制理论,设计了滑模控制器.通过线性矩阵不等式方法,分别给出了匹配不确定和非匹配不确定条件下系统在滑模面上均方意义下指数稳定的充分条件.同时针对这两种不确定性,设计了相应的滑模控制策略,并证明了该控制策略能够确保系统的运动轨迹在有限时间内到达滑模面并一直保持在滑模面上.仿真结果表明,所设计的控制器对不确定混合线性Markov跳跃系统具有很强的稳定性和鲁棒性.  相似文献   

18.
基于(s,S)库存策略的分销系统最优分配问题   总被引:4,自引:0,他引:4  
分销系统的运营成本不仅与所采取的库存控制策略有关,也与配送中心在货源不足时的分配策略有关。该文讨论单品种、单配送中心多销售点、周期观察、随机需求的两级分销系统。配送中心及各销售点都采用(s,S)库存控制策略,顾客对销售点的需求过程服从Po isson过程。在给定配送中心向销售点分配策略的情况下,系统的状态转移形成一个离散时间的M arkov链,因此系统的最优分配策略问题是一个M arkov决策问题。采用策略迭代或值迭代的办法,可以求解系统的最优库存分配策略。数值算例表明,采用最优库存分配策略能显著降低系统的成本。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号