首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对多智能体系统在处理复杂任务时存在的低效率、高冗积、多智能体系统内协同模型算法存在交互冲突、资源损耗过高等问题, 提出一种基于复杂任务的多智能体系统优化算法。在差分进化算法与局部优化算法的基础上对二者进行优化, 结合强化学习的训练框架, 构建训练网络, 通过对学习步长进行修订, 改变种群迭代优化准则, 使得种群在计算力充足的情况下可以实现全局收益最大化, 有效解决了指挥控制系统过程中的协同优化问题。  相似文献   

2.
基于Metropolis准则的多步Q学习算法与性能仿真   总被引:1,自引:0,他引:1  
强化学习是目前智能体和机器学习研究的热点。针对强化学习中标准Q学习算法更新速度慢的缺点,通过引入多步信息更新策略和模拟退火中的Metropolis准则,提出了一种新颖的多步Q学习算法,称为SAMQ算法。仿真实验表明,与现有的算法相比,该算法能够有效提高收敛速度,较好地解决智能体选择动作时面临的新知识探索还是当前策略遵循的关键问题。  相似文献   

3.
为了将智能Agent技术架构应用于机场货运业务的仿真模型开发,以机场货运资源优化为目标,提出了将深度强化学习与机场货运业务仿真模型结合的决策支持系统框架,用仿真数据实现对深度学习网络的训练,运用深度学习网络优化模型中的调度方案。训练成熟的系统采取在线模式可以用于实时优化货运流程的调度方案。为了验证架构的有效性,在Anylogic仿真平台进行模型开发和实验,并将深度强化学习的调度与OptQuest的优化结果进行比较。结果表明,在保证机场货运业务有序进行的基础上,深度强化学习可以更好地对机场货运业务进行优化。  相似文献   

4.
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system, MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分析算法框架及训练方法,针对算法集中式训练、分布式执行的特点,采用并行方法完成经验回放池数据采样,并在采样过程中引入优先回放机制,实现经验数据并行流动、数据处理模型并行工作、经验数据优先回放。分别在OpenAI多智能体对抗、合作两类典型环境中,从训练轮数、训练时间两个维度对改进算法进行了对比验证,结果表明,并行优先经验回放机制的引入使得算法性能提升明显。  相似文献   

5.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。  相似文献   

6.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

7.
针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题, 以三回路驾驶仪极点配置算法为核心, 提出一种将三维控制参数转换为一维设计参量的智能训练方法, 构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构, 在提高深度强化学习算法的效率和奖励函数收敛性同时, 确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例, 完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高, 训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。  相似文献   

8.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。  相似文献   

9.
真实动态博弈场景下对抗双方存在信息不对等、工作机理和规则不相同等特征,但现有的强化学习算法通过假设状态可观测或部分可观测来采用近似模型拟合。因此,在难以准确获取或者无法获取对方状态信息时,假设条件难以成立,导致现有强化学习模型无法直接适用。针对这个问题,提出一种基于非对称不可观测强化学习新框架,在该框架下,智能体仅根据价值反馈即可实现在线学习。为验证可行性和通用性,将3种典型强化学习算法移植到该算法框架,搭建了博弈对抗模型,进行对比验证。结果表明,3种算法都可成功应用于不可观测状态的动态博弈环境,且收敛速度大幅提高,证明了该框架的可行性和通用性。  相似文献   

10.
通过分析多智能协作问题的研究现状,借鉴自然界中物种之间协同进化机制而得到的协进化计算思想,提出了基于协进化机制的多智能体系结构和协作方法,介绍了协作化智能体的分层设计方法,协进化智能体之间以及智能体与环境之间的交互过程,并设计了基于协进化方法的多智能体系协作系统仿真框架,以多武器平台协同的控制对抗仿真系统为背景进行了实验研究。  相似文献   

11.
多范式人工社会建模与多智能体仿真平台框架   总被引:1,自引:0,他引:1  
陈彬  邱晓刚  郭刚 《系统仿真学报》2011,23(8):1702-1707
ACP(Artificial Society,Computational Experiments,Parallel Execution)方法是一种新的解决突发事件应急管理的理论方法。基于ACP方法和多范式建模理论,提出了多范式人工建模方法及其运行支撑多智能体仿真环境,利用模型变换支持人工社会多领域建模,改造基于组件的并行仿真支撑形成支持FIPA(Foundation for Intelligent Physical Agents)协议的多智能体仿真引擎。以此为基础,最后提出了多范式人工社会建模与多智能体仿真平台框架。包括人工社会建模环境、人工社会运行环境和人工社会实验环境。该框架同时也是"非常规突发事件模拟仿真与计算实验集成升华平台"的重要支撑。  相似文献   

12.
线上线下融合的新零售模式提高了对最后一公里配送的运输要求,众包物流作为新的物流运输模式,在最后一公里配送中扮演了重要角色.通过合理的任务分配方式来提升众包司机与任务之间的匹配效率,成为提升平台运营能力的重要手段.本文以最小化众包司机运输成本为目标,基于深度强化学习提出了一种双智能体协作学习的众包物流任务分配模型.在强化学习的框架下,司机选派智能体学习从司机池中选派一位合适的众包司机,随后任务分配智能体学习从任务池中选择一项任务进行分配.本文通过数值实验验证了所提方法的有效性.相较于单智能体方法和传统启发式算法,该方法可以得到更好的任务分配结果,同时较短的计算时间能够满足众包物流平台线上运行的需求.  相似文献   

13.
针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。  相似文献   

14.
多智能体仿真具有广泛的应用前景。但是,现有的多智能体仿真和并行仿真无法解决数量庞大且具有复杂动力学特性的智能体仿真,因此研究这类多智能体的有效仿真具有重要的意义。为了能够有效仿真这类系统,设计了一个两层的多智能体并行仿真框架,指出了该框架中面临的挑战。除此之外,针对仿真中提高仿真效率的挑战,作者提出了一种加快仿真速度的方法。实验结果表明该方法可以明显提高仿真效率。  相似文献   

15.
为提升多无人地面平台协同控制能力,适应新形势下智能战争趋势,基于JADE和World Wind Java构建了多智能体地面平台协同控制仿真系统。运用多Agent理论建立无人地面平台仿真模型,基于JADE构建协同控制仿真平台,运用粒子群算法优化任务分配机制。仿真实验表明,构建的协同控制仿真平台具有良好的鲁棒性和灵活性,优化后的任务分配机制使得多无人地面平台群体执行任务效率明显提高,且可应用于其他海上、空中无人平台的仿真研究。  相似文献   

16.
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展, 基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价, 多算子之间的网络没有协同, 本方算子之间各自行动决策会不够智能。针对上述方法的不足, 提出了一种基于强化学习并结合规则的多智能体决策方法, 以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析, 并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型, 对比每个算子互不交流的封闭式行动决策学习方法, 提出的分布执行集中训练方法更具优势且有效。  相似文献   

17.
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训练数据。通过对网络进行充分训练,得到优化调度策略。将网络接入地铁站行人流实时运行数据,实现实时优化管控。仿真实验表明:引入的深度强化学习框架可以实现在线优化,调度结果优于传统方法。  相似文献   

18.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。  相似文献   

19.
为了从系统的角度验证炼钢、连铸、热轧生产计划编制模型、算法及计划编制流程,基于面向服务的软件结构体系,提出了钢铁生产计划仿真平台的框架,该框架分为计划层、调度层、仿真层、数据接口层、数据服务层、协调层,并给出平台的网络结构。采用O/RMapping技术结合CodeSmith实现数据接口层,Web Service实现计划层、调度层、仿真层功能,Agent实现协作层。以炉次计划模型、连铸计划模型、中间包计划模型为例验证仿真平台的可行性,并为工程化、产品化软件奠定基础。  相似文献   

20.
近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大, 其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此,提出了一种两阶段规划算法, 用以学习优化反潜策略, 在部署阶段, 建立了基于不确定性马尔可夫决策过程的反潜资源分配模型, 并设计了鲁棒性部署策略强化学习算法, 用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段, 建立了基于部分可观察马尔可夫决策过程的搜潜模型, 并设计了基于多智能体强化学习的搜潜策略学习算法。最后,通过仿真实验验证了本算法与比对算法相比具有更高的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号