首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 70 毫秒
1.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

2.
城市演化的多主体(multi-agent)模型研究   总被引:16,自引:2,他引:16  
采用基于主体建模(Agent-based Modeling,ABM)的方法设计了一个城市演化的模拟模型,旨在探索城市中居民、企业等大量微观主体非线性互作互动而导致的宏观空间结构的演化过程.作者针对城市空间演化的几种典型模式,利用在Swarm环境下实现的多主体(multi-agent)城市模拟系统,通过微观层面的动态模拟进行分析和对比,并结合定性的认识对所模拟的城市演化模式进行了评价和讨论,为可持续的城市规划和管理提供理论支持.  相似文献   

3.
进化博弈中多代理人强化学习模型   总被引:4,自引:2,他引:4  
将强化学习引入到进化博弈中,建立了进化博弈中的多代理人强化学习模型,并基于Q-学习给出了算法流程,仿真算例的结果表明多代理人强化学习模型能使得博弈人不断学习、寻求最优策略.  相似文献   

4.
征对多移动机器人协同问题,将角色变换与强化学习相结合,采用集中式控制结构,并提出了距离最近原则,将距离障碍物最近的机器人作为主机器人并指挥其它从机器人运动,同时采用了基于行为的多机器人协同方式,在提出的基于强化学习的行为权重基础上,通过与环境交互使机器人行为权重趋向最佳,并利用基于最大行为值的协调策略来规划机器人避碰行为.通过在动态环境下多机器人协同搬运仿真实验,表明在使用了角色变换和强化学习后,有效减少了多机器人与障碍物发生碰撞的次数,成功的实现了协同搬运,具有良好的学习效果.  相似文献   

5.
基于径向基函数网络的强化学习在机器人足球中的研究   总被引:2,自引:1,他引:1  
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。  相似文献   

6.
基于模糊神经网络局部强化学习在Robocup中的应用   总被引:2,自引:0,他引:2  
吴定会  李真  纪志成 《系统仿真学报》2007,19(16):3719-3723
针对Robocup仿真组比赛中智能体的配合与动作选取,将模糊神经网络(FNN)和局部协调图动态角色分配与传统Q-学习相结合,提出了基于模糊神经网络的局部Q-学习。采用该方法,有效抑制了仿真平台中的噪声干扰,提高了动作选取的精度,解决了传统Q-学习中Q表占用内存空间过大的问题,增强了系统的泛化能力,并进一步缩短了学习时间,更好的满足比赛实时性的要求。将其运用于仿真组比赛的传球和射门模型中,验证了该方法的有效性。  相似文献   

7.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。  相似文献   

8.
针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。  相似文献   

9.
在生产制造过程中, 设备状态的衰变会影响产品质量, 导致成品率水平的逐渐下降. 本文研究此类具有多成品率水平的衰变设备预防维修问题. 建立隐马氏决策过程模型, 在成品率水平不可直接获知的情况下, 用产品质检信息作为系统观测状态进行维修决策. 模型考虑两类质检误差及收益和成本参数, 通过强化学习算法, 学习各观测状态下的最优维修行动. 针对不同的设备衰变模式和质检误差水平, 进行算例分析, 结果显示基于强化学习的预防维修策略与传统的固定周期的维修策略相比, 能够很大程度上提高系统的平均收益.  相似文献   

10.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。  相似文献   

11.
针对多智能体系统在处理复杂任务时存在的低效率、高冗积、多智能体系统内协同模型算法存在交互冲突、资源损耗过高等问题,提出一种基于复杂任务的多智能体系统优化算法.在差分进化算法与局部优化算法的基础上对二者进行优化,结合强化学习的训练框架,构建训练网络,通过对学习步长进行修订,改变种群迭代优化准则,使得种群在计算力充足的情况...  相似文献   

12.
针对传统的小脑模型,提出了一种广义模糊小脑模型神经网络(GFCMAC)。它采用模糊隶属度函数作为接收域函数,可以获得较常规CMAC连续性强且有解析微分的复杂函数近似,具有计算量少,学习效率高等优点。研究了GFCMAC接收域函数的映射方法、隶属度函数及其参数的选取规律和学习算法。结合强化学习,提出了一种基于GFCAMC的强化学习算法,讨论了其实现过程。应用于船舶航向控制的仿真结果表明,在有各种风浪干扰下,船舶航向跟踪快且操舵动作合理,适合船舶转向控制要求。  相似文献   

13.
For multi-agent reinforcement learning in Markov games, knowledge extraction and sharing are key research problems. State list extracting means to calculate the optimal shared state path from state trajectories with cycles. A state list extracting algorithm checks cyclic state lists of a current state in the state trajectory, condensing the optimal action set of the current state. By reinforcing the optimal action selected, the action policy of cyclic states is optimized gradually. The state list extracting is repeatedly learned and used as the experience knowledge which is shared by teams. Agents speed up the rate of convergence by experience sharing. Competition games of preys and predators are used for the experiments. The results of experiments prove that the proposed algorithms overcome the lack of experience in the initial stage, speed up learning and improve the performance.  相似文献   

14.
1 .INTRODUCTIONAutonomous mobilerobotics has beena veryi mportant re-searcharea in artificial intelligence and control theory fordecades. Researchers have developed series of methodolo-giesto build mobile robots withself-learning and adaptivecontrol capabilities,rangingfromdeliberative model-basedto purelyreactive paradigms.But nostrongsuccesses havebeen achieved yet . For there are three main difficulties:(1) We cannot programeverything for the robot ,espe-cially in an unknown environmen…  相似文献   

15.
一种基于信息熵的强化学习算法   总被引:1,自引:1,他引:0  
针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程度,据此设计了一种探索机制,用于自适应调节学习过程中探索和利用之间的平衡;通过设置可变测度阈值的方法,对状态空间进行自主删减,最终生成合适的、规模较小的状态空间,从而大大节约了计算资源,提高了学习速度。仿真结果表明,所提算法具有较好的学习性能。  相似文献   

16.
基于多Agent系统的计算机生成兵力建模研究   总被引:1,自引:0,他引:1  
在计算机生成兵力(computer generated forces,CGF)的研究中,引入了多Agent系统(multi-agentsystems,MAS)理论,并以面向对象Petri网(object-oriented Petri nets,OPN)为基础,建立了一种通用的适合CGF的MAS形式化模型ArmyMAS.ArmyMAS描述了作战实体Agent、管理Agent和配置等三个单元,形象地刻画了CGF的结构与行为特性,同时可以利用Petri网的相关分析方法和工具对模型进行分析和验证.最后利用Ar-myMAS对弹道导弹攻防对抗CGF系统进行建模和分析,验证了该模型的有效性.  相似文献   

17.
基于模糊马尔科夫理论的机动智能体决策模型   总被引:2,自引:1,他引:1  
针对机动作战仿真背景,运用智能体理论研究战术机动智能体的最优机动决策问题。对传统的马尔科夫决策模型进行了扩展,通过定义攻击威胁下机动智能体的模糊状态空间、模糊状态转移规律和决策收益,建立了模糊战术机动决策模型,较好地描述了实际作战决策中的模糊认知、分析、判断等信息处理过程。通过引入强化学习手段,提出融合指挥员先验信息的Q学习算法和状态动态分类识别算法,对状态转移规律不易确定时模型的求解进行了研究;仿真实验验证了模型和算法的有效性。  相似文献   

18.
智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号