首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
多agent协同强化学习算法SE-MACOL及其应用   总被引:4,自引:4,他引:0  
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。  相似文献   

2.
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解.然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机.在多agents系统中,由于agents之间的协作使该问题更加复杂.为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理.同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性.  相似文献   

3.
一种基于意图跟踪和强化学习的agent模型   总被引:1,自引:0,他引:1  
针对动态对抗的多agent系统(MAS)环境中agent行为前摄性较差的问题,提出了一种将意图跟踪和强化学习相结合的agent模型.该模型将对手信息和环境信息分开处理,在agent的BDI心智模型中引入了Q-学习机制应对环境变化;在强化学习的基础上注重对对手和对手团队的意图跟踪,改进Tambe的意图跟踪理论,针对特定对抗环境中的对手行为建立对手模型,跟踪对手和对手团队的意图,预测对手目标,以调整自身行为.实验证明,所提出的agent模型具有更强的自主性和适应性,在动态对抗系统中具有更强的生存能力.  相似文献   

4.
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解。然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机。在多agents系统中,由于agents之间的协作使该问题更加复杂。为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理。同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性.  相似文献   

5.
为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时性,采用了Stackelberg强均衡策略作为每个agent选择策略的依据.为了验证算法,在多个巡逻任务中进行了测试.定量和定性的实验结果证明了算法的收敛性和有效性.   相似文献   

6.
Agent具有自私的特性.为了在多agent系统学习时使学习效果体现最大的群体利益,提出了一种改进的多agent学习方法.该学习方法改进了基于基组织共识学习的学习方法,在多agent学习时考虑了主体的可信度问题,从而使最后的学习结果更具真实性.  相似文献   

7.
利用博弈学习思想,以多agent系统为平台,提出一种基于动态无限博弈的多agent合作机制模型,以多阶段邀请、考核模式形成无限次重复博弈结构体.提出信任基准测度评价控制agent博弈选取的盲目性,使其理性计划各阶段决策.通过博弈结果反馈信息,动态调整agent博弈主体的收益函数,控制各agent间的协同合作优先级,实现闭环调控.将多agent组合构成智能结构体的基本单元,利用九宫格实验对该基本单元进行试验测试,验证多工况下,基于多种信任基准条件agent单元体间的协同合作机制.实验表明,信任基准可有效调整agent间的信任等级,促进系统中agent合作频率的提高.  相似文献   

8.
基于离散的Lagrange方法,建立了一个基于多agent系统的求解分布式约束满足问题(CSP)的数学模型,当各agent的局部行为聚合成一个给定目标函数的下降操作时,只要该CSP是可解的,就可以通过这个多agent系统寻找出问题的一个解.使用这个模型对分布式逃逸算法进行了分析,有助于进一步了解各agent的局部行为的聚合涌现,提高求解的性能。  相似文献   

9.
本文提出测度值马尔可夫决策过程新模型.在此模型下,agent对环境的把握用测度概念来表示,于是agent则根据测度来决定自己的最优行动以得到最优策略,因此本文也提供了测度值马尔可夫决策过程的最优策略算法.该模型是部分可观察马尔可夫决策过程的推广,它反映人类思维的一个重要特征,人们在把握全部状态可能性(即对状态空间进行权衡度量)的态势下,思考问题并选择自己的最优行动.部分可观察马尔可夫决策过程只是它的一种特例.  相似文献   

10.
针对水运地理信息系统数据多源、异构、海量等特点及系统本身的复杂性问题,应用Web和多agent技术。提出了基于Web和多agent的水运地理信息系统设计模型,给出了多agent之间的合作算法及合作策略,并对合作算法的复杂度和特点进行了分析.实现了水运地理信息系统的架构设计.  相似文献   

11.
为了应对电力系统的数据流量增长、提升电力用户体验,电力无线专网系统将由密集部署的宏微小区组成,而网络中的故障小区会带来覆盖盲点从而影响网络服务质量.为了解决电力无线专网宏微协同组网中基于人工的故障检测方式效率低且成本高的问题,提出了一种基于迁移隐马尔可夫模型(transfer learning based hidden...  相似文献   

12.
多无人机对动态目标的围捕是无人机集群作战中的重要问题.针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕策略,构建了相应的围捕算法.基于AC框架对MAD-DPG进行改进,首先,在Critic网络加入Attention模块,依据不同注意力权重对所有围捕无人机进行信息处理;然后,在Actor网络加入Attention模块,促使其他无人机进行协同围捕.仿真实验表明,Att-MAD-DPG算法较MADDPG算法的训练稳定性提高8.9%,任务完成耗时减少19.12%,经学习后的围捕无人机通过协作配合使集群涌现出更具智能化围捕行为.  相似文献   

13.
频谱检测是认知无线电的基础和关键技术,将其建模为隐马尔可夫模型(hidden Markov model,HMM),并由此提出基于隐马尔可夫模型的协作频谱检测策略.该策略首先使用Baum-Welch法对HMM的系统参数进行最大似然估计;然后基于HMM模型,利用各次用户的检测信息以及过去信道状态的后验概率信息进行贝叶斯推理,更新当前时隙信道状态的后验概率;最后根据最大后验概率准则对当前时隙的信道状态进行最终判决.使用后验概率,该策略可进一步估计系统协作检测的性能,在满足系统协作检测性能要求的前提下,选择尽可能少的、检测性能较优的次用户来参与协作,以节约开销和降低复杂度.仿真实验表明,所提出的策略的系统检测性能优于基于大数判决、似然比和Chair-Varshney准则的协作频谱检测策略.  相似文献   

14.
基于神经网络增强学习算法的工艺任务分配方法   总被引:1,自引:0,他引:1  
在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值.  相似文献   

15.
协作中继通信中,为了促进节点的协作,研究了协作通信中理性的双中继面对相同用户群的竞争行为。利用博弈论,建立了一种促进空闲节点参与协作且便于用户监控服务质量的频谱买卖模型;基于该模型研究了有固定空闲频谱和非固定空闲频谱的双中继定价策略。对有固定空闲频谱的双中继的价格竞争,证明了纳什均衡的存在和唯一性,给出了实现纳什均衡的分布式价格调整算法;对可灵活申请频谱的双中继的价格竞争,设计了引导两中继分布式达到纳什均衡的定价策略,在该机制下,两中继实现了维护各自用户群的最大效益。  相似文献   

16.
Artificial immune system has become a researchhot spot after the neural network, fuzzy logic andevolutionary computation[1,2]. Clone means propagat ing asexually so that a group of genetically identicalcells can be descended from a single common ances tor, such as a bacterial colony whose members arisefrom a single original cell as the result of binary fis sion. The idea has been extensively applied in somefields like computer programming[3,4], system con trol[5], interactive para…  相似文献   

17.
Based on the clonal selection theory and immune memory theory, a novel artificial immune system algorithm, immune memory clonal programming algorithm (IMCPA), is put forward. Using the theorem of Markov chain, it is proved that IMCPA is convergent. Compared with some other evolutionary programming algorithms (like Breeder genetic algorithm), IMCPA is shown to be an evolutionary strategy capable of solving complex machine learning tasks, like high-dimensional function optimization, which maintains the diversity of the population and avoids prematurity to some extent, and has a higher convergence speed.  相似文献   

18.
研究由能量收集发射节点、目的节点和窃听节点组成的能量收集通信系统中,以最大化平均保密传输速率为目标的发送功率控制问题.在环境状态信息事先未知,且系统模型中信道系数、电池电量、收集的能量连续取值的场景下,提出一种基于深度Q网络(deep Q network,DQN)的、仅依赖于当前系统状态的在线功率分配算法.将该功率分配问题建模为马尔科夫决策过程;采用神经网络近似Q值函数来解决系统状态有无限多种组合的问题,通过深度Q网络求解该决策问题,获得仅依赖于当前信道状态和电池状态的功率控制策略.仿真结果表明,相比较随机功率选择算法、贪婪算法和Q学习算法,提出的算法能获得更高的长期平均保密速率.  相似文献   

19.
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为我国能源未来发展的重要方向。目前我国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。本文提出一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模。深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP)。最后采用历史的数据对智能体进行训练,训练完成的模型可以实现对本文的分布式能源系统的实时优化,并对比了深度Q网络(Deep Q Network, DQN)算法和LINGO获得的调度策略。结果表明,本文提出的基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。  相似文献   

20.
虚拟联盟成员之间利润分配问题的分析   总被引:14,自引:0,他引:14  
虚拟联盟是一个动态联盟,是在市场信息充分情况下的一种合作对策。通过实例分析,用夏普利值法解决聪明成员之间的利润分配问题,可以避免在分配利润时只考虑投资比例这一个因素的弊端。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号