首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。文章提出一种改进的Q学习算法,提出将神经网络应用于Q学习,系统只需学习部分状态—动作的Q值,即可进行Q学习,有效的提高收敛的速度。最后在RoboCup环境中验证这个算法,对传球成功率有所提高。  相似文献   

2.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

3.
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。  相似文献   

4.
提出一种多智能体增强式学习方法,每个智能体在学习过程中将其他智能体和环境区分开来,并且通过维持其他智能体的替代传导径迹来预测它们的行为,从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构,适用条件宽松。仿真结果证明了所提出学习算法的有效性,而且相对于集中式Q学习效率有很大的提高。  相似文献   

5.
针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小的分布式控制。首先,将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后,对无功功率进行适当修改,通过分析节点电压的变化得到灵敏度矩阵,进而与主动配电网环境进行交互,训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比,该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层,在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明:所提出的算法不仅能够满足电压约束,而且相较于多智能体深度确定性策略梯度(MADDPG)算法,网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。  相似文献   

6.
为了促进多智能体技术发展,本提出了一种基于协调图和变量排除算法的局部合作策略体系,协调图用来表现一个系统的协调需求,变量排除算法用来求出最优配合,给出了理论上的证明和实际的应用.在RoboCup仿真中。该策略体系从微观上对agents的合作行为进行指导,在局部形成最优的合作策略,有效提高了传球的成功率和球队的攻击力。在实际应用中也取得了较好的效果.  相似文献   

7.
影响图是贝叶斯网络的扩展,利用影响图可以有效解决智能Agent利用经验学习和行为选择2个基本问题。RoboCup是一个典型的多Agent系统,其中的球和球员都可以看成是Agent。文章给出一种基于影响图的决策方法,并将其应用到RoboCup中,从而实现了球员截球过程中行为的动态调整。  相似文献   

8.
收敛速度是衡量机器学习算法的一个重要指标,在强化学习中,如果算法不充分利用从每次学习中获取的经验知识,算法的收敛速度则比较缓慢;为了提高强化学习的收敛速度,文章将环境模型的学习引入到强化学习过程中,首先学习环境模型,然后根据所得的新模型重新指导强化学习过程,在Linux下的RoboCup仿真平台上对该算法进行了验证,实验结果证明了其有效性.  相似文献   

9.
针对机器人足球世界杯RoboCup中型组比赛提出的动态阵型选择算法.建立了动态协作模型,将多个智能体组合成一个拥有共同目标的团队。完成给定的任务分配和站位配合,实现了基于动态阵型变换的多智能体动态协作.通过实现各种阵型之间的动态变换.满足了不同情况的协作要求.显著提高了球队的整体竞赛能力.  相似文献   

10.
基于CMAC(cerebella model articulation controller)提出一种动态强化学习方法(dynamic cerebellamodel articulation controller-advantage learning,DCMAC-AL)。该方法利用advantage(λ)learning计算状态-动作函数,强化不同动作的值函数差异,以避免动作抖动;然后在CMAC函数拟合基础上,利用Bellman误差动态添加特征值,提高CMAC函数拟合的自适应性。同时,在RoboCup仿真平台上对多智能体防守任务(takeaway)进行建模,利用新提出的算法进行学习实验。实验结果表明,DCMAC-AL比采用CMAC的advantage(λ)learning方法有更好的学习效果。  相似文献   

11.
机器人足球(RoboCup)是研究多agent系统的体系结构、多agent团队合作理论以及机器学习方法的理想测试平台。介绍了开发的仿真球队NDSocTeam系统的设计原理和实现技术。系统设计了以机器学习技术为核心的球员agent结构,并建立了一种分层学习以及多种学习技术相结合的机器学习系统.重点描述了NDSocTeam系统的总体结构、球员agent的结构以及机器学习的实现技术。  相似文献   

12.
介绍了RoboCup仿真组中agent一种系统流程及其细化,agent所涉及到的几个主要模块;给出了agent的具体系统流程,说明了这种agent结构的可扩充性,为agent的最终设计打下了基础。  相似文献   

13.
一种基于支持向量回归方法在RoboCup中的应用   总被引:2,自引:0,他引:2  
对RoboCup中截球问题引入了支持向量回归方法,通过采集样本训练预测模型来预测Agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究,最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明,在截球距离的预测精度方面要优于传统的广义回归神经网络。  相似文献   

14.
RoboCup中基于效果操作的动态行为规划模型   总被引:2,自引:1,他引:2  
如何提高agent的学习能力、对手建模能力以及多agent团队运作能力是目前RoboCup研究所面临的3项挑战,在上述的挑战中,行为规划起了非常重要的作用。agent如何能够在动态实时的复杂环境中根据场景变化来动态规划自己的行为是RoboCup目前急需解决的问题。提出一种面向效果操作方法的动态行为规划模型,使队员能够在场景分析的基础上,根据经验动态选择和执行行为策略,且具有持续学习的能力,采用贝叶斯信念网络和基于示例推理相结合的方法来实现。实验结果表明,该方法有效提高了队员适应环境的能力。  相似文献   

15.
彭军  Wu  Ming  Guo  Rui  Kuo-chi  Lin 《高技术通讯(英文版)》2007,13(2):203-206
To solve the problem of convergence to a local optimum in the multi-layer feedforward neural network, a new disturbance gradient algorithm is proposed. Through introducing random disturbance into the training process, the algorithm can avoid being trapped into the local optimum. The random disturbance obeys the Boltzmann distribution. The convergence of the algorithm to the global optimum is statistically guaranteed. The application of the algorithm in RoboCup, which is a complex multi-agent system, is discussed. Experiment results illustrate the learning efficiency and generalization ability of the proposed algorithm.  相似文献   

16.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.  相似文献   

17.
该文分析了目前有影响的BGP(信念-目标-规划)和BDI(信念-愿望-意向)思维状态模型的局限性,给出了Agent思维状态KOCBDI(知识-义务-交互-信念-愿望-意向)模型,并用机器人足球,说明KOCBDI模型各属性的独立性。  相似文献   

18.
智能化远程学习模型   总被引:11,自引:0,他引:11  
利用智能化技术实现有效的个性化学习是远程教育中的重要问题。该文对现有远程学习系统中智能化所需要解决的问题进行了分析。针对目前远程学习模型可实现性差的问题 ,从两个层次上加以解决 :在课件学习模型问题上 ,提出一个反映知识模块间关系的知识混合结构模型 ,及相应的智能指导和智能答疑算法 ;在软件实现层次上 ,利用软件代理和多代理技术实现智能课件、智能学习指导和智能答疑3个功能。该模型通过一个实验系统加以验证。结果表明 :基于知识混合结构和软件代理技术的智能化学习模型是一个实用的远程学习智能化方案  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号