共查询到19条相似文献,搜索用时 46 毫秒
1.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作. 相似文献
2.
针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。 相似文献
3.
基于径向基函数网络的强化学习在机器人足球中的研究 总被引:2,自引:1,他引:1
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。 相似文献
4.
5.
针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,... 相似文献
6.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。 相似文献
7.
8.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。 相似文献
9.
针对机器人对未知目标的编队跟踪问题,建立机器人运动控制模型,提出了基于强化学习的目标跟踪与环围控制策略。在强化学习策略驱动下,机器人探索发现目标点位置并展开跟踪,使用环围编队运动模型对机器人跟踪策略进行实时优化,实现对逃逸目标点的动态跟踪与环围控制。搭建了多机器人运动测试环境,实验表明结合强化学习的方法能够缩短多机器人编队调节时间,验证了多机器人环围编队控制策略的有效性。 相似文献
10.
基于多Agent的多机协同空战仿真系统设计和实现 总被引:2,自引:2,他引:0
设计了一种基于多Agent的多机协同空战仿真系统,分别对该系统的建模框架和仿真框架进行了构建。在建模部分提出了系统各类Agent的Petri网模型和基于知识查询处理语言(knowledge query manipulation language, KQML)的模糊通信机制,仿真部分则采用独立于建模框架的仿真信息控制结构和小规模协同分配算法实现。仿真结果表明,该系统与实际符合较好,仿真速度和精度高,验证了该系统的有效性。 相似文献
11.
12.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 相似文献
13.
基于多个并行CMAC神经网络的强化学习方法 总被引:1,自引:0,他引:1
为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。 相似文献
14.
基于强化学习的指挥控制Agent适应性仿真研究 总被引:1,自引:1,他引:1
应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的适应这种动态未知的环境。文章引入强化学习技术对战争系统中指挥控制Agent的适应性进行建模仿真研究。实验结果表明强化学习技术能很好的满足指挥控制Agent无师在线实时学习的要求,从而为战争模拟系统中的智能Agent的适应性机制提供良好的建模手段。 相似文献
15.
同步定位和地图构建(simultaneous localization and mapping,SLAM)是移动机器人在未知环境中完成地图构建和定位任务的关键技术。针对多机器人SLAM中的地图融合问题,提出一种启发式的搜索方法引导局部地图的重复区域进行地图融合。每个机器人可以在不了解其相对位置的情况下建立局部地图,并将局部地图信息发送至同一工作站中,以局部地图的相似性为判断指标融合得到最优的全局地图。在机器人实物平台上进行验证,结果证明了多机器人SLAM的地图融合算法的有效性和准确性。 相似文献
16.
针对作业车间动态调度问题,在模式驱动调度的框架下,提出遗传强化学习动态调度方法。首先,采用优先规则编码的染色体表达问题的解,将染色体分割成基因模式作为分阶段调度算法的状态模式;其次,设计性能预测变量,构建启发式立即回报函数,引导和加快遗传强化学习算法的搜索进程;再次,设置遗传算子、强化学习及其相关参数以实现搜索过程"开采"与"探索"之间的平衡;最后,仿真实验结果验证了遗传强化学习调度方法的有效性。Abstract: In the framework of pattern driven scheduling,a genetic reinforcement learning (GRL) approach to schedule the job in the dynamical job-shop was proposed.First,the chromosome was coded by preference rules-based representation for the problem.The chromosome was divided into gene schema as state patterns for the multi-phase scheduling system.Secondly,a performance predictive variable to construct instant reward function was designed which was used to guide the learning system to progress rapidly.Thirdly,genetic operators,RL and controlling parameters carried out the search strategy for the balance of "exploration" and "exploitation".Finally,the simulation results verify the efficiency of GRL scheduling approach. 相似文献
17.
提出增强学习(RL)解决机器人动态操作任务运动规划的方法。对动态操作任务,分析了如何确定输入输出变量以及强化函数的设计问题;给出用于连续输入输出问题的自适应启发评价(AHC)算法。增强学习解决动态操作任务的运动规划问题,只需要机器人正解进行反复尝试即可学会动作,从而避免了常规运动规划方法中涉及的复杂逆解运算;最后以平面3连杆机器人接取自由飞行的球为例进行仿真研究,结果表明了方法的有效性和可行性。 相似文献
18.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作... 相似文献
19.
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。 相似文献