首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
以异构测控网资源联合调度为研究对象,提出一种基于强化学习的深度Q网络(deep Q network, DQN)算法。在充分分析异构测控资源联合调度问题特点后,用数学语言对影响问题求解的约束条件进行描述,建立了资源联合调度模型;从应用强化学习解决问题的角度,对求解的问题进行马尔科夫决策过程描述后,分别设计了2个结构相同的神经网络和基于ε贪婪算法的动作选择策略,并建立了DQN求解框架。仿真结果表明:基于DQN的异构测控资源调度方法较遗传算法能够找到调度收益更优的测控调度方案。  相似文献   

2.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作...  相似文献   

3.
战时军事物流仿真研究   总被引:5,自引:0,他引:5  
战时军事物流,是指在战争状态或战争演习状态下,开展的军事物流活动。首先介绍了仿真技术在战时军事物流研究中的意义,及仿真技术在战时军事物流系统中的主要应用;介绍了战时军事物流系统仿真模型的建立,简单阐述了基于时间步长的事件调度法的仿真策略在战时军事物流仿真系统中的应用;最后针对某一战时军事配送案例进行分析和建模,并运用了MATLAB中优化数据箱中的函数进行了仿真。  相似文献   

4.
基于知识的分层事件调度混杂系统仿真策略   总被引:7,自引:2,他引:5  
仿真策略是仿真学研究的核心问题之一。本文针对一类具有决策功能的混杂系统,提出一种基于知识的分层事件调度仿真策略。通过引入专家系统,建立了决策调度和事件调度的分层智能调度模型,克服了离散事件系统仿真策略缺少决策分析和事件处理缺乏层次的局限性。该策略算法设计简单,易于实现,并且已经在宝钢铁水运输仿真系统中得到实际应用,其有效性得到证明。  相似文献   

5.
宗群  孙正雅  宋超峰 《系统仿真学报》2007,19(21):4945-4948
针对电梯群控系统,建立基于平均报酬强化学习的优化调度模型。采用R-learning的平均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行验证。通过与两种典型的电梯群组调度算法进行比较,展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机序贯决策问题的有效性及可行性。  相似文献   

6.
针对装备保障任务的优化调度问题,首先进行静态建模,提出了一个新的数学规划模型,能够有效描述保障单元的力量配置及与保障对象的指派关系等复杂约束条件;随后实施动态建模,利用混合Petri网把数学模型转换为流程模型,不仅构建了变迁激发规则以表达静态数学模型的约束条件,而且设计了新的子网结构模拟突发事件及协同保障的动态过程。为了求解该规划模型,提出了一个基于退火进化的优化调度算法,该算法首先计算保障单元的分配问题,随后搜索资源分配的优先级列表生成保障任务的工作顺序,算法中利用Petri网过程模型计算不确定条件下的目标函数值。仿真实验表明算法能在较快的收敛速度下提高保障单元的利用率。  相似文献   

7.
舰载机多机一体化机务保障调度方法   总被引:1,自引:0,他引:1  
为了有效提升舰载机多机机务保障的效率和保障人员的利用率,根据单机机务保障流程约束特性,建立了基于多计划评审技术网络的多目标多机一体化机务保障调度模型。针对问题的求解,提出了一种自适应混合差分进化算法。首先根据调度的网络化排队过程,设计了基于事件调度策略的解码方法。其次为了协调算法“探索”与“开发”的能力,引入了自适应的变异操作和交叉、变异参数控制。再次,针对工序块的平行组合排列特征,提出了4种邻域结构,进而在算法框架中嵌入了一种自适应多邻域局部搜索策略。最后通过仿真实验验证了模型和算法的可行性和有效性。  相似文献   

8.
针对目前军械装备技术准备保障资源配置不合理的问题,提出了一种基于仿真的军械装备技术准备优化方法,将排队论和离散事件动态系统理论相结合建立了技术准备仿真模型,以保障效费比最大为优化目标函数,设计了仿真模型和启发式的优化算法相结合的仿真优化方法,最后以鱼雷装备为例对该方法进行了验证和分析,结果表明了该方法的有效性,从而为科学制定保障方案、优化技术准备过程提供决策支持.  相似文献   

9.
为了在保证较高水平的保障可用度前提下提高舰载机出动效率, 提出一种支持可用度约束的统计优化模型及其对应的启发式求解算法。能够同时生成舰载机的保障作业调度方案和保障装备计划性维护的时间安排, 并通过基于仿真的优化方式, 在启发算法的适应度评价中增加对视情维修和事后维修的仿真, 提高了舰载机作业调度方案的鲁棒性。仿真结果表明,所提算法能够提供一个稳定可靠的基准调度方案, 避免不必要的重调度。  相似文献   

10.
一种战时装备维修保障资源优化调度算法   总被引:2,自引:0,他引:2  
对引起战时维修保障资源冲突的原因进行了深入分析,建立了多维修点资源优化调度模型,给出了基于维修点保障优先度的资源优化调度算法。实例分析结果表明:装备维修保障资源的优化调度能够在满足任务需求和给定的维修保障资源条件下优化资源调度方案,充分利用资源,缩短待修装备的平均等待时间。  相似文献   

11.
真实-虚拟-构造为近距空战对抗训练提供了有力支撑。针对课题对蓝方虚拟实体的实际决策建模需求, 在对比分析深度强化学习与经典智能优化方法的基础上, 从优化理论的角度对神经网络的权值空间和结构空间进行定义, 提出基于智能优化的进化神经网络决策模型及其求解方法。首先,分析近距空战战术特点, 战机飞行运动模型, 实际决策建模需求。其次,分别设计战机关键飞行状态、动作空间、适应度函数, 实现蓝方端到端感知与决策。最后, 给出基于经典遗传神经网络的决策模型及求解示例。结果表明, 所提方法可实现蓝方战机通过对抗数据来学习对手作战特点的功能, 验证了模型及方法的有效性; 同时所提方法对目前智能优化及其改进算法, 以及不同结构神经网络具有通用性。  相似文献   

12.
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策.但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能.针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演...  相似文献   

13.
基于模糊马尔科夫理论的机动智能体决策模型   总被引:2,自引:1,他引:1  
针对机动作战仿真背景,运用智能体理论研究战术机动智能体的最优机动决策问题。对传统的马尔科夫决策模型进行了扩展,通过定义攻击威胁下机动智能体的模糊状态空间、模糊状态转移规律和决策收益,建立了模糊战术机动决策模型,较好地描述了实际作战决策中的模糊认知、分析、判断等信息处理过程。通过引入强化学习手段,提出融合指挥员先验信息的Q学习算法和状态动态分类识别算法,对状态转移规律不易确定时模型的求解进行了研究;仿真实验验证了模型和算法的有效性。  相似文献   

14.
近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大,其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此,提出了一种两阶段规划算法,用以学习优化反潜策略,在部署阶段,建立了基于不确定性马尔可夫决策过程的反潜资源分配模型,并设计了鲁棒性部署策略强化学习算法,用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段,建立了基于部分可观察马尔可夫决策过程的搜潜模型,并设计了基于多智能体强化学习的搜潜策略学习算法。最后,通过仿真实验验证了本算法与比对算法相比具有更高的性能。  相似文献   

15.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。  相似文献   

16.
针对基于强化学习的多功能雷达干扰决策方法训练周期长、收敛慢的问题,本文提出了基于先验知识的多功能雷达智能干扰决策算法。所提算法使用了基于势能函数的收益塑造理论,利用先验知识设置收益函数,相比于传统算法,具有更快的收敛速率。利用先验知识加速算法收敛速率的方法对强化学习在多功能雷达干扰决策中的实际应用具有重要的意义,对于强化学习在其他领域的应用也具有很好的参考价值。  相似文献   

17.
基于强化学习的多成品率衰变设备预防维修策略   总被引:1,自引:1,他引:0  
在生产制造过程中, 设备状态的衰变会影响产品质量, 导致成品率水平的逐渐下降. 本文研究此类具有多成品率水平的衰变设备预防维修问题. 建立隐马氏决策过程模型, 在成品率水平不可直接获知的情况下, 用产品质检信息作为系统观测状态进行维修决策. 模型考虑两类质检误差及收益和成本参数, 通过强化学习算法, 学习各观测状态下的最优维修行动. 针对不同的设备衰变模式和质检误差水平, 进行算例分析, 结果显示基于强化学习的预防维修策略与传统的固定周期的维修策略相比, 能够很大程度上提高系统的平均收益.  相似文献   

18.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法。与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略。首先,通过核函数的强化学习来应对维度诅咒问题。其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的稀疏性。最后,仿真结果验证了所提算法的有效性。得益于稀疏化码字对于系统动态特性的学习,所提算法与传统基于Q学习的抗干扰频点分配算法相比,收敛时间更短,并且可以快速规避外部未知干扰源的干扰。  相似文献   

19.
In evolutionary games, it becomes more difficult to choose optimal strategies for players because of incomplete information and bounded rationality. For bounded rational players, how to maximize the expected sum of payoffs by learning and changing strategies is an important question in evolutionary game theory. Reinforcement learning does not need a model of its environment and can be used online, it is well-suited for problems with incomplete and uncertain information. Evolutionary game theory is the subject about the decision problems of multiagent with incomplete information. In this article, reinforcement learning is introduced in evolutionary games, multiagent reinforcement learning model is constructed, and the learning algorithm is presented based on Q-learning. The results of simulation experiments show that the multiagent reinforcement learning model can be applied successfully in evolutionary games for finding the optimal strategies.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号