首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 640 毫秒
1.
在传统马氏单元决策过程(MDP)模型中引入多元行动来确定系统的状态转移概率,通过运用传统MDP的基本理论以及结合多元行动集、决策向量、相合度等新定义,提出了马氏向量决策过程模型.  相似文献   

2.
马尔可夫决策规划与采掘计划优化   总被引:3,自引:0,他引:3  
应用马尔可夫决策规划(MDP)模型对采掘计划进行了费用优化。  相似文献   

3.
针对经典规划模型和马尔可夫决策过程(MDP)模型的不足,提出了一种轻量马尔可夫决策过程(LMDP)模型.此模型在MDP模型上作了简化,使其既能描述实际任务中不确定性的特点,又有效降低了状态转移的分支系数,从而适用于大规模的问题.另外,利用经典规划领域的启发函数对LMDP问题进行初始化,能够大大加快收敛速度.最后以机器人酒吧任务为例,将此模型与基于MDP模型的Prost规划器在不同问题规模下进行对比,实验结果表明此模型能有效加快求解速度,并能够更好地适应大规模实际环境.  相似文献   

4.
近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA的反例表示问题,首先将PTA的语义表示为Markov决策过程(MDP),通过策略解决MDP不确定性,将MDP转换为离散时间Markov链(DTMC);然后将DTMC转换为带权有向图,则PTA中最小反例问题转化为带权有向图中最短路径问题;最后采用正则表达式表示求得的反例.  相似文献   

5.
本文论述目标规划方法论求解系统问题的四个哲学观点,从多目标、满意解、现实和弹性观点阐明了基础模型的概念,以及基础模型向传统线性规划模型和字典序目标规划多纯形(MULTIPLEX)模型的转换,指出转换时所作假设对模型有效性的影响。MULTIPLEX模型不仅兼容传统的单目标线性规划,而且可以统一描述加权线性目标规划、模糊规划和非劣解多目标线性规划等几乎所有各类多目标数学规划。  相似文献   

6.
部分权重信息下基于两阶段优化的多属性决策方法   总被引:1,自引:0,他引:1       下载免费PDF全文
研究了只有部分权重信息(区间数)且属性值为定值的多属性决策问题。首先,基于局部与全局最优综合属性值,分别建立了一个目标规划模型。其次,通过求解这两个模型获得方案的排序,提出了基于两阶段规划的多属性决策新方法,该方法具有操作简便且易于上机实现的特点。最后,通过实例说明模型及方法的可行性和有效性。  相似文献   

7.
吴晓丹  何金  李娟 《科学技术与工程》2022,22(22):9516-9523
为合理匹配医疗检查任务,提高医生服务质量和医院收益,针对医疗检查即时预约调度问题,考虑医生资质和患者病情差异,以最大化医院收益为目标建立基于马尔可夫决策过程(Markov decision process, MDP)的匹配预约调度模型,并采用逆序值迭代算法对模型进行求解。最后通过仿真实验得到不同资质医生接受不同病情患者的最优预约策略,并与传统先到先服务(first come first service,FCFS)预约策略进行对比分析。结果表明,MDP预约策略是与医生剩余可服务患者数相关的阈值策略,该策略相比于FCFS预约策略所获收益更高,更有利于保障医院稳健运营,且在医疗检查资源越匮乏时MDP预约策略的优势越明显。  相似文献   

8.
基于多目标模糊决策的兵力分配模型   总被引:1,自引:0,他引:1  
考虑作战兵力分配的多种目标因素,由模糊数学方法建立综合效益对于“优”的模糊关系矩阵并作为效率矩阵,建立了兵力分配的数学规划模型.结合传统的分派(指派)问题,给出了一种兵力分配模型及求解方法.  相似文献   

9.
输电网规划的灰色模型及算法   总被引:12,自引:0,他引:12  
本文提出一种具有灰色线性约束的输电网优化模型,并构造了该模型的数值求解方法-多级决策法,通过一个21节点测试算例,表明所提方法简单,实用,从而为解决非确定条件下的输电网规划问题找到了一条新的途径。  相似文献   

10.
对于带油环带底水的复杂成组(多个)凝析油气田,本文在研究解决开发中的综合技术经济问题的基础上,提出并实现了运用动态规划进行单个疑析油气田最优开发规划的思想,提出并初步运用了大系统分级规划及递阶控制原理进行复杂开发系统最优规划的思想。本文建立并求解了复杂成组凝析油气田开发系统最优规划的二级递阶优化数学模型。第一级是高阶的总体最优协调模型,第二级是低阶的动态规划模型群。并将全部研究成果应用于解决我国华北苏桥地区复杂成组凝析油气田开发系统最优规划决策问题。  相似文献   

11.
遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与遗传算法最优参数之间的联系。在此基础上,用神经元动态规划逼近M arkov决策过程的最优策略,并用学习到的策略指导遗传算法最优参数的选择。数值计算结果表明,该文提出的算法能自动收敛到最优遗传参数,并在求解JSP问题时能稳定地得到满意解。  相似文献   

12.
本文讨论一类非时齐折扣马氏决策规划的总折扣报酬的k(≥1)矩和矩最优问题,得到k矩和矩最优策略存在的一个充要条件;并将k矩最优问题化为同类型的一个马氏决策规划的一阶矩最优问题,从而也解决了这类模型的k矩最优策略的结构问题.  相似文献   

13.
多Agent系统中任务分配问题的分析与建模   总被引:5,自引:0,他引:5  
针对多Agent系统(MAS)内外环境变化所产生的不确定性和任务分配序列决策的要求,利用马尔科夫决策过程(MDP)模型对MAS中的动态任务分配问题进行了分析和建模.其中,状态空间由各Agent的当前负载和待分配的任务组成,每一状态下有多种任务分配方案,利用迭代方法可以获得最佳的任务分配方案以实现系统长期收益最大化的目标.仿真实验表明,MDP模型可以合理地模拟MAS中任务分配的运作过程,并在小规模环境下方便地获取最优任务分配策略.  相似文献   

14.
针对现代舰船运行环境的不确定性和动力平台集成管理智能化的需求,以舰船冷却水系统为研究对象,研究了其在不确定性条件下基于多智能体(Agent)自治决策模型的状态重构方法.通过将该系统的状态重构问题看作松耦合的马尔可夫决策过程(MDP),建立了其基于MDP的多Agent自治决策模型.使用遗传算法对决策空间进行全面搜索得到最优策略,并通过数值计算验证了其性能.在获得的最优策略的指导下,实现了冷却水系统的自动状态重构.该方法能够提高冷却水系统的自主决策水平和任务效率.  相似文献   

15.
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型.  相似文献   

16.
社团的演化往往是复杂多变的,如何对这些嵌入在网络中的社团进行个性化干预,使得不同的社团朝着不同的既定方向演化的研究逐渐成为社交网络领域的一个重要问题.在社团演化的干预框架下,基于状态转移视角,提出了基于马尔可夫决策过程的社团演化干预模型.该模型通过对社团状态维度分数与干预目标的综合考虑,确立社团演化过程与马尔可夫决策过程的对应关系,对社团演化中的状态、动作、回报进行精细建模,同时将社团演化期望回报与研究者的奖励相对应,对马尔可夫决策过程求解,实现对社团演化的干预.在不同社团数据集上的实验结果表明,基于马尔可夫决策过程的干预模型能够对社团的演化进行有效的干预.  相似文献   

17.
With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is rigid and cannot be easily adapted to the dynamic Web environment.To address these challenges,the geographic information service composition(GISC) problem as a sequential decision-making task is modeled.In addition,the Markov decision process(MDP),as a universal model for the planning problem of agents,is used to describe the GISC problem.Then,to achieve self-adaptivity and optimization in a dynamic environment,a novel approach that integrates Monte Carlo tree search(MCTS) and a temporal-difference(TD) learning algorithm is proposed.The concrete services of abstract services are determined with optimal policies and adaptive capability at runtime,based on the environment and the status of component services.The simulation experiment is performed to demonstrate the effectiveness and efficiency through learning quality and performance.  相似文献   

18.
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。  相似文献   

19.
本文研究了报酬函数与时间有关的MDP模型,推广了[1]文献中相应的结果.文中在放弃了文献[2]、[3]中某些限制条件的情况下,讨论最优周期策略、ε最优周期策略的存在性,并给出算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号