首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
复杂环境中的多智能体强化学习   总被引:3,自引:0,他引:3  
提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 .  相似文献   

2.
采用基于行为的控制方法,机器人在不知道外界精确模型的条件下,利用增强式学习自主完成给定的任务,机器人在学习过程中需要对行为状态进行记忆,连接增强式学习利用多层感知器逼近Q函数,泛化状态空间,节约了存储容量,仿真结果证明了这种算法的有效性,解决了基于查表增强式学习不适用连续状态空间的缺陷,为移动机器人进一步实用化提供了依据。  相似文献   

3.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

4.
基于多智能体的人事管理系统研究   总被引:2,自引:0,他引:2  
现代人事管理系统需要集成数据库、知识系统、决策支持等异构部件,本文提出了基于多智能体的人事管理系统,以实现人事管理任务的分布式协作求解,分别描述了任务智能体、人事管理系统的结构,并讨论其运行过程.  相似文献   

5.
介绍了基于多智能体技术的搜索引擎系统,包括该系统的组织和结构问题、定义问题、通讯问题、协作问题。  相似文献   

6.
针对智能移动终端设备的资源有限性和未来网络架构需要云边协同能力等问题,提出了一种基于多智能体强化学习的任务卸载策略,通过部署Cybertwin智能体为用户设备所需卸载的任务合理分配资源,在保证终端设备的服务质量(QoS)要求的同时,最小化整个计算网络的总成本。首先联合设计Cybertwin智能服务代理、计算任务分配以及网络通信与算力等多维异构资源配置构建随机对策的马尔可夫博弈过程(MGP),使执行总延迟和总能耗之和最小。其次考虑到需要处理随机时变网络与动态资源请求的高维连续动作空间,采用了一种基于多智能体双延迟深度确定策略梯度(MATD3)的深度强化学习协同框架求解。仿真实验结果表明:与常见的单智能体学习算法和启发式方案相比,本文提出的MATD3方法具有较好的性能,在平均执行成本方面分别降低了25.61%和35.79%,在任务卸载率上分别提高了39.13%和77.76%。  相似文献   

7.
敏捷制造环境下基于多智能体的车间控制系统   总被引:1,自引:0,他引:1  
针对敏捷制造的需求,提出了一种基于多智能体的车间控制系统,这种控制系统是由重构智能体,任务智能体、资源管理智能体、制造资源智能体构成的多智能体系统,通过智能体的自治和智能体之间的相互协调,完成车间控制任务并保证其敏捷特征,讨论了各种智能体的功能、作用和行为。  相似文献   

8.
朱海 《创新科技》2014,(12):53-54
公共舆情可能引爆社会危机,实时舆情监测、提前预警,是维护社会公共安全的必要保障。舆情预警系统依靠成熟的技术,利用多智能体系统构建舆情预警系统有助于提高舆情监测、预警、处置过程的自动化程度,有助于提高决策层的舆情管理效率。  相似文献   

9.
研究了使用多智能体模拟区域旅游行为的方法,提出了区域旅游行为的要素模型、日程模型和空间位移模型。在此基础上,开发出用于区域旅游行为模拟的原型系统,并以河南省为例,分析了游客集中出行和游客分散出行两种模式对区域旅游的交通压力和景区压力的影响,验证了原型系统的可用性,同时可为区域旅游行为的研究提供新的方法。  相似文献   

10.
研究了一类带有输入受限的领导者-追随者多智能体系统的同步最优控制问题。该问题可以看作是一个图博弈问题。基于图博弈理论,首先为每个智能体定义了一个带有非二次型能量函数的性能指标,该性能指标同时依赖于智能体自身及其邻居的信息。然后,利用所定义的性能指标建立耦合的哈密顿-雅克比-贝尔曼(HJB)方程。通过求解HJB方程得到最优控制策略,使得每个追随者同步于领导者且最小化给定的性能指标。由于HJB方程的解析解难于获得,因此借助于强化学习方法利用Actor-Critic(A-C)神经网络在线学习得到近似最优解。通过稳定性分析可以证明所得近似最优控制策略使得闭环系统所有状态一致最终有界,并且收敛到交互纳什均衡。最后,通过仿真实验验证所提同步最优控制算法的有效性。  相似文献   

11.
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23 %、47.96 %,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50 %的训练时间并提高7.44 %的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65 %、19.00 %。  相似文献   

12.
研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.  相似文献   

13.
研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.  相似文献   

14.
研究了基于强化学习的多机器人学习社会合作行为的问题。通过定义的分配布尔矩阵,对参与任务者进行奖励回报,并综合基础行为,生成状态到行为的新的映射,形成高级的群体合作行为,使得团队作为一个整体受益。讨论了学习社会行为的可行性和必要性,并采用强化学习方法,给出了多机器人传接合作搬运的详细算法实现。  相似文献   

15.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

16.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

17.
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。  相似文献   

18.
运用加强学习算法解决电梯群控问题往往受限于算法收敛速度慢,很难扩展至具有更高楼层、更多电梯的群控系统.分割状态空间为几个区域,建立具有分割功能的加强学习系统是必要的.所提出的系统结构及其底层工作原理具有普遍意义,可用于解决大状态空间上的最优控制问题,开发了基于群控分区算法的分割模块,运行结果表明了此系统的优势.  相似文献   

19.
自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,本文改进了DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明本文提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号