首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 117 毫秒
1.
从多阶段、延迟回报的角度提出基于部分可观察马尔可夫决策过程(POMDP)对客户关系的动态发展与管理进行建模的方法.模型以客户关系作为隐状态,以客户购买水平作为隐状态的观察值,以客户管理行动为决策变量.通过模型,可以动态估计客户的关系状态,可以估计各行动对客户关系动态演化的影响,并以客户终生价值为目标优化管理行动.以客户保持-流失两状态客户关系模型为例,说明了模型的具体应用.  相似文献   

2.
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process, POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。  相似文献   

3.
针对直接评估不确定决策效能的困难,引入一种间接评估方法--理想观察者分析(IdealObserverAnalysis,IOA)方法,它通过定义最佳执行(Optimal Performance),用实际策略效用与OP效用值的差异表示决策效能.而在确定OP时又使用了部分可观察马尔科夫决策过程(Partially ObservableMarkov Decision Process,POMDP)模型.研究了用POMDP模型确定OP的方法,提出了一种行动决策方法.最后针对三状态"寻找并摧毁"型作战任务进行仿真验证,结果证明了此方法的有效性.  相似文献   

4.
为使5G混合专网结构的2种用户能获得最优计算卸载策略,将2种用户竞争移动边缘计算(mobile edge computing,MEC)服务器资源的问题建模成Stackelberg博弈,并分别讨论了完全信息博弈和不完全信息博弈下的策略。完全信息博弈下,存在唯一纳什均衡解;不完全信息博弈下,将环境建模为部分可观测的马尔可夫决策过程(partially observable Markov decision process,POMDP),并提出一种基于二阶段深度强化学习(two-stage deep reinforcement learning,TSDRL)的最优卸载策略。仿真实验表明:该算法相较于D-DRL算法能减少20.81%的时延及3.38%的能耗,有效提高用户QoE(quality of experience)。  相似文献   

5.
马军  殷保群 《系统仿真学报》2008,20(21):5903-5906
策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值.在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真.通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率.  相似文献   

6.
简单生产-库存系统的优化控制   总被引:10,自引:0,他引:10  
讨论了由一个加工车间 (workshop)和一个库房 (warehouse)组成的生产 -库存系统 ,用排队理论得到了刻画系统的马尔可夫过程的无穷小生成元 ,并用此确定了系统的最优控制变量的近似算法  相似文献   

7.
马尔可夫决策过程(MDP)的许多优化算法一般依赖系统的转移速率,而系统参数的不确定性使得MDP的转移速率往往很难精确得知。针对一类不确定多链MDP模型,基于性能势对参数不相关和相关两种情况下的鲁棒控制问题进行了探讨,并分别给出求解系统最优鲁棒性能的策略迭代和并行遗传算法。最后,通过一个数值例子分析相关算法的有效性。  相似文献   

8.
针对认知用户在频谱切换过程中无法实时地获取授权用户到达率与服务率的问题,提出了基于隐式马尔可夫模型的参数估计算法。首先利用排队论对授权用户队列进行建模与分析,推导出授权用户队列状态转移概率;其次利用能量感知算法检测授权用户队列真实状态,获得可观测序列值;然后利用隐式马尔可夫模型描述两种随机过程,即授权用户队列状态变化随机过程和可观测序列随机过程;最后利用forward-backward算法估计隐式马尔可夫模型,从而获得授权用户到达率与服务率。仿真结果表明,该方法能够实现实时的、较为精确的估计,从而实时地为认知用户选择频谱切换策略提供依据。  相似文献   

9.
近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大,其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此,提出了一种两阶段规划算法,用以学习优化反潜策略,在部署阶段,建立了基于不确定性马尔可夫决策过程的反潜资源分配模型,并设计了鲁棒性部署策略强化学习算法,用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段,建立了基于部分可观察马尔可夫决策过程的搜潜模型,并设计了基于多智能体强化学习的搜潜策略学习算法。最后,通过仿真实验验证了本算法与比对算法相比具有更高的性能。  相似文献   

10.
传统的动态规划检测前跟踪(dynamic programming track-before-detect, DP-TBD)算法能有效实现对匀速直线运动目标的检测跟踪,但其忽略了目标帧间状态转移概率,因此在对机动目标进行检测跟踪时容易受噪声干扰,产生错误的状态关联。对此提出了一种基于隐马尔可夫模型的DP-TBD算法。该算法利用隐马尔可夫模型对目标的运动过程建模,用一系列隐状态表示目标转弯速率并利用隐马尔可夫模型的隐状态估计理论实现对转弯速率的估计和预测,进而得到当前目标状态的预测值,根据此预测状态与下一时刻回波数据分辨单元间的距离来计算转移概率。然后将转移概率应用于DP-TBD算法的能量积累过程中以提高检测跟踪性能。仿真实验基于机动目标,给出了所提算法的检测跟踪性能,并与传统的DP-TBD算法、方向加权DP-TBD算法以及线性最小二乘DP-TBD算法进行了分析比较,验证了该算法的有效性。  相似文献   

11.
针对静态分配模型的不足,基于部分可观的马尔可夫决策过程建立对单个目标的多阶段决策模型,以反映任务执行效果及反馈信息中的不确定性,进而提出对多个目标的动态资源分配模型。在离线优化阶段中,通过对偶分解法将其分解为一系列较易求解的子问题,并基于次梯度算法调整资源价格,以协调子问题所构造策略中资源的使用量。在实时决策中,根据所得策略及实际执行情况指定对目标的具体行动方案,确保约束条件得以满足。仿真结果表明了方法的有效性。  相似文献   

12.
面向目标跟踪的单平台主被动传感器长期调度   总被引:1,自引:0,他引:1  
以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision process, POMDP)以同步实现目标跟踪和辐射控制。提出以容积采样法估算长期精度收益,以隐马氏模型滤波器推导长期辐射代价。最终将原问题转化成决策树并利用分枝定界法进行求解。仿真结果证明了本方法的有效性。  相似文献   

13.
面向跟踪任务需求的主动传感器调度方法   总被引:1,自引:0,他引:1  
以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的辐射模型,并采用隐马尔可夫模型滤波器动态更新传感器辐射;最后考虑跟踪任务需求和传感器约束,将辐射风险控制下传感器调度问题转化为非线性约束下寻优问题。仿真实验结果验证了所提方法有效性。  相似文献   

14.
针对机载网络随机竞争类媒介接入控制(medium access control,MAC)协议在网络负载较重时性能下降严重、接入门限值设置缺乏理论依据和多优先级业务服务质量无法有效支持等问题,提出一种基于部分可观测马尔可夫决策过程的信道接入策略。在以不同优先级分组占用信道代价作为目标函数的基础上建立动态规划方程,采用状态空间压缩方法对问题求解进行简化,得到各优先级分组间理论近似最优接入门限值的数学表达式,可为不同优先级分组的接入决策过程提供理论依据并实现接入冲突的有效控制。仿真结果表明,该算法能够有效提高数据传输的时延、成功概率等性能,满足军事航空通信中数据传输的实时性和可靠性需求。  相似文献   

15.
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。  相似文献   

16.
直接配送的三层随机库存路径问题   总被引:1,自引:0,他引:1  
库存路径问题是研究如何协调库存管理和运输规划的一类问题,是企业实施供应商管理库存策略需要解决的问题.本文提出了一种有车辆限制、直接配送的无限阶段三层随机库存路径问题,并运用马尔可夫决策规划解决此问题.通过把该问题分解成若干个具有马氏性的子问题,降低了运算难度,得到该问题的近似最优解.  相似文献   

17.
基于MDP框架的飞行器隐蔽接敌策略   总被引:1,自引:0,他引:1  
基于近似动态规划(approximate dynamic programming, ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process, MDP)的隐蔽接敌策略的强化学习方法;通过态势得分函数对非连续的即时收益函数进行修正,给出了基于ADP方法的策略学习与策略提取方法。分别针对对手在有无信息源支持情况下的不同机动对策进行了仿真验证。仿真结果表明,将ADP方法应用于隐蔽接敌策略的学习是可行的, 在不同态势下可获得较为有效的接敌策略。  相似文献   

18.
Zhang  Qianqian  Kang  Yu  Yu  Peilong  Zhu  Jin  Liu  Chunhan  Li  Pengfei 《系统科学与复杂性》2021,34(3):843-859
This paper investigates the stabilization issue for a class of sampled-data nonlinear Markov switching system with indistinguishable modes. In order to handle indistinguishable modes, the authors reconstruct the original mode space by mode clustering method, forming a new merged Markov switching system. By specifying the difference between the Euler-Maruyama(EM) approximate discrete-time model of the merged system and the exact discrete-time model of the original Markov switching system, the authors prove that the sampled-data controller, designed for the merged system based on its EM approximation, can exponentially stabilize the original system in mean square sense. Finally, a numerical example is given to illustrate the effectiveness of the method.  相似文献   

19.
ExactBayesianandFiducialLimitsfortheMeanofLognormalDistributionZhouYuanquan;WengZhaoxi;andLiuZhengxian(BeijingInstituteofStru...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号