首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

2.
针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。  相似文献   

3.
基于径向基函数网络的强化学习在机器人足球中的研究   总被引:2,自引:1,他引:1  
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。  相似文献   

4.
研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,从而有效地解决了复杂未知环境的机器人导航问题。实验结果表明,由强化学习设计的模糊控制器的有效性,同时具有较强的适应能力,可以应用于不同的复杂环境。  相似文献   

5.
针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,...  相似文献   

6.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。  相似文献   

7.
基于GA的三个主要遗传算子,借鉴生物科学中神经元相互刺激与抑制的量化关系,采用数.学模型描述了多个体协同式强化学习的动力学行为;同时对传统GA的进化计算方法进行一定改进,提出了支持强化学习的新的协同进化算法;最后,仿真实验数据表明新算法增强了智能搜索的能力,并加快了种群的收敛速度.  相似文献   

8.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。  相似文献   

9.
针对机器人对未知目标的编队跟踪问题,建立机器人运动控制模型,提出了基于强化学习的目标跟踪与环围控制策略。在强化学习策略驱动下,机器人探索发现目标点位置并展开跟踪,使用环围编队运动模型对机器人跟踪策略进行实时优化,实现对逃逸目标点的动态跟踪与环围控制。搭建了多机器人运动测试环境,实验表明结合强化学习的方法能够缩短多机器人编队调节时间,验证了多机器人环围编队控制策略的有效性。  相似文献   

10.
基于多Agent的多机协同空战仿真系统设计和实现   总被引:2,自引:2,他引:0  
设计了一种基于多Agent的多机协同空战仿真系统,分别对该系统的建模框架和仿真框架进行了构建。在建模部分提出了系统各类Agent的Petri网模型和基于知识查询处理语言(knowledge query manipulation language, KQML)的模糊通信机制,仿真部分则采用独立于建模框架的仿真信息控制结构和小规模协同分配算法实现。仿真结果表明,该系统与实际符合较好,仿真速度和精度高,验证了该系统的有效性。  相似文献   

11.
基于模糊神经网络局部强化学习在Robocup中的应用   总被引:2,自引:0,他引:2  
吴定会  李真  纪志成 《系统仿真学报》2007,19(16):3719-3723
针对Robocup仿真组比赛中智能体的配合与动作选取,将模糊神经网络(FNN)和局部协调图动态角色分配与传统Q-学习相结合,提出了基于模糊神经网络的局部Q-学习。采用该方法,有效抑制了仿真平台中的噪声干扰,提高了动作选取的精度,解决了传统Q-学习中Q表占用内存空间过大的问题,增强了系统的泛化能力,并进一步缩短了学习时间,更好的满足比赛实时性的要求。将其运用于仿真组比赛的传球和射门模型中,验证了该方法的有效性。  相似文献   

12.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。  相似文献   

13.
基于多个并行CMAC神经网络的强化学习方法   总被引:1,自引:0,他引:1  
为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。  相似文献   

14.
基于强化学习的指挥控制Agent适应性仿真研究   总被引:1,自引:1,他引:1  
应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的适应这种动态未知的环境。文章引入强化学习技术对战争系统中指挥控制Agent的适应性进行建模仿真研究。实验结果表明强化学习技术能很好的满足指挥控制Agent无师在线实时学习的要求,从而为战争模拟系统中的智能Agent的适应性机制提供良好的建模手段。  相似文献   

15.
王桐  尚光涛  高山 《系统仿真学报》2022,34(7):1449-1458
同步定位和地图构建(simultaneous localization and mapping,SLAM)是移动机器人在未知环境中完成地图构建和定位任务的关键技术。针对多机器人SLAM中的地图融合问题,提出一种启发式的搜索方法引导局部地图的重复区域进行地图融合。每个机器人可以在不了解其相对位置的情况下建立局部地图,并将局部地图信息发送至同一工作站中,以局部地图的相似性为判断指标融合得到最优的全局地图。在机器人实物平台上进行验证,结果证明了多机器人SLAM的地图融合算法的有效性和准确性。  相似文献   

16.
针对作业车间动态调度问题,在模式驱动调度的框架下,提出遗传强化学习动态调度方法。首先,采用优先规则编码的染色体表达问题的解,将染色体分割成基因模式作为分阶段调度算法的状态模式;其次,设计性能预测变量,构建启发式立即回报函数,引导和加快遗传强化学习算法的搜索进程;再次,设置遗传算子、强化学习及其相关参数以实现搜索过程"开采"与"探索"之间的平衡;最后,仿真实验结果验证了遗传强化学习调度方法的有效性。
Abstract:
In the framework of pattern driven scheduling,a genetic reinforcement learning (GRL) approach to schedule the job in the dynamical job-shop was proposed.First,the chromosome was coded by preference rules-based representation for the problem.The chromosome was divided into gene schema as state patterns for the multi-phase scheduling system.Secondly,a performance predictive variable to construct instant reward function was designed which was used to guide the learning system to progress rapidly.Thirdly,genetic operators,RL and controlling parameters carried out the search strategy for the balance of "exploration" and "exploitation".Finally,the simulation results verify the efficiency of GRL scheduling approach.  相似文献   

17.
提出增强学习(RL)解决机器人动态操作任务运动规划的方法。对动态操作任务,分析了如何确定输入输出变量以及强化函数的设计问题;给出用于连续输入输出问题的自适应启发评价(AHC)算法。增强学习解决动态操作任务的运动规划问题,只需要机器人正解进行反复尝试即可学会动作,从而避免了常规运动规划方法中涉及的复杂逆解运算;最后以平面3连杆机器人接取自由飞行的球为例进行仿真研究,结果表明了方法的有效性和可行性。  相似文献   

18.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作...  相似文献   

19.
任燚  陈宗海 《系统仿真学报》2005,17(7):1699-1703
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号