共查询到16条相似文献,搜索用时 54 毫秒
1.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 相似文献
2.
为解决动态环境下作业车间调度问题,提出了一种基于改进Q学习算法和调度规则的动态调度算法。以“剩余任务紧迫程度”的概念来描述动态调度算法的状态空间;设计了以“松弛越高,惩罚越高”为宗旨的回报函数;通过引入以Softmax函数为主体的动作选择策略来改进传统的Q学习算法,使改进后的Q学习算法在前期选择不同动作的概率更加平等,同时改善了贪婪策略在学习后期还会选择次优动作的现象。仿真结果表明:该调度算法相较于改进前,性能指标平均提升约6.5%;相较于IPSO算法和PSO算法,性能指标平均提升分别约为38.3%和38.9%,调度结果明显优于使用单一调度规则以及传统优化算法等常规方法。 相似文献
3.
针对作业车间动态调度问题,在模式驱动调度的框架下,提出遗传强化学习动态调度方法。首先,采用优先规则编码的染色体表达问题的解,将染色体分割成基因模式作为分阶段调度算法的状态模式;其次,设计性能预测变量,构建启发式立即回报函数,引导和加快遗传强化学习算法的搜索进程;再次,设置遗传算子、强化学习及其相关参数以实现搜索过程"开采"与"探索"之间的平衡;最后,仿真实验结果验证了遗传强化学习调度方法的有效性。Abstract: In the framework of pattern driven scheduling,a genetic reinforcement learning (GRL) approach to schedule the job in the dynamical job-shop was proposed.First,the chromosome was coded by preference rules-based representation for the problem.The chromosome was divided into gene schema as state patterns for the multi-phase scheduling system.Secondly,a performance predictive variable to construct instant reward function was designed which was used to guide the learning system to progress rapidly.Thirdly,genetic operators,RL and controlling parameters carried out the search strategy for the balance of "exploration" and "exploitation".Finally,the simulation results verify the efficiency of GRL scheduling approach. 相似文献
4.
智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。 相似文献
5.
6.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。 相似文献
7.
为了将智能Agent技术架构应用于机场货运业务的仿真模型开发,以机场货运资源优化为目标,提出了将深度强化学习与机场货运业务仿真模型结合的决策支持系统框架,用仿真数据实现对深度学习网络的训练,运用深度学习网络优化模型中的调度方案.训练成熟的系统采取在线模式,可以用于实时优化货运流程的调度方案.为了验证架构的有效性,在An... 相似文献
8.
9.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 相似文献
10.
11.
对平均费用型马氏决策过程 ,研究了一种递阶增强型学习算法 ;并将算法应用于一个两台机器组成的开环可重入生产系统 ,计算机仿真结果表明 ,调度结果优于熟知的启发式调度策略. 相似文献
12.
基于强化学习的指挥控制Agent适应性仿真研究 总被引:1,自引:1,他引:1
应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的适应这种动态未知的环境。文章引入强化学习技术对战争系统中指挥控制Agent的适应性进行建模仿真研究。实验结果表明强化学习技术能很好的满足指挥控制Agent无师在线实时学习的要求,从而为战争模拟系统中的智能Agent的适应性机制提供良好的建模手段。 相似文献
13.
14.
一种基于云计算理念的网络化建模与仿真平台——"云仿真平台" 总被引:6,自引:0,他引:6
基于仿真网格[1]的研究成果,进一步提出了一种基于云计算理念的网络化建模与仿真平台-"云仿真"平台,讨论了它的研究背景、技术内涵、特色以及体系结构,并介绍了已完成的关键技术研究和典型应用示范系统.初步研究与实践表明:提出的"云仿真"平台能够进一步改善仿真网格对多用户在多粒度资源按需共享、协同、容错迁移等方面的能力,进而建立了一种新的建模仿真模式--"云仿真".最后给出了云仿真平台下一步的工作展望. 相似文献
15.
网络化制造环境下生产动态调度仿真与分析 总被引:1,自引:0,他引:1
针对网络化制造环境下生产系统特点,构建异地生产协同调度框架.基于调度框架进行动态仿真计算:应用模糊理论对生产时间分布概率进行判断,确定企业内部生产调度评测参数;使用Hopfield神经网络综合决策,求出企业外协生产与内部调度之间的可行解.将调度框架应用在实际生产调度问题中,对仿真计算结果继续综合优化,能够得到好的可行调度方案. 相似文献
16.
针对现有HLA仿真资源难以与Internet共享使用的问题,借鉴云计算的思想,采用HLA Evolved相关的技术改进,提出了一种基于HLA Evolved的云仿真的体系结构和框架实现方案;研究了用于Web服务的RTI组件、模块化FOM/SOM对象模型和WSDL API函数等HLA Evolved技术,解决了基于多层语义的服务注册、发现、组合和平台的监控、预测及基于Hadoop的分布式存储、仿真技术;完成了一种战术通信网系统的云仿真测试实验,证明了基于HLA Evolved的云仿真设计方法的可行、有效。 相似文献