首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
传统的BP神经网络算法已被有效地应用于处理RoboCup中传球策略,但是存在最速下降法收敛速度慢和易陷入局部极小的缺点。提出一种改进的BP算法,增加了附加动量项的方法对BP算法进行了改进,将之应用于离线的传球学习。最后在RoboCup环境中与传统的BP算法进行了比较,结果表明该改进算法有效地提高了收敛成功率。  相似文献   

2.
针对双周期干线信号协调控制中干线协调与双周期交叉口通行效率存在一定矛盾的问题,提出了一种基于改进Q学习的双周期干线信号协调控制方法,从状态空间和动作空间两个方面对Q学习算法进行了改进。首先,提出了新的交通状态描述指标——排队消散指数,依据该指标的阈值对交通状态进行等级划分,降低了Q学习状态空间的维数。其次,综合考虑相邻交叉口交通状态之间的关联和影响,针对每种系统状态分别设定可行的关联动作,降低了Q学习的动作空间。最后,以北京市两广路为例验证了改进的Q学习算法。结果表明,改进Q学习算法相比于普通Q学习算法、固定配时方案,干线平均延误分别减少10.47%、9.93%,平均停车次数分别减少22.64%、7.96%,双周期交叉口平均延误分别减少21.58%、24.96%,平均停车次数分别减少8.51%、11.64%,表明该算法对减少双周期干线延误,降低停车次数具有较为显著作用。  相似文献   

3.
基于神经网络增强学习算法的工艺任务分配方法   总被引:1,自引:0,他引:1  
在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值.  相似文献   

4.
在RoboCup仿真2D足球比赛中,防守模型是关键技术之一,加强在对方进攻关键区域上的防守可以有效阻止对手进球,针对RoboCup仿真2D球队防守策略难以优化的问题提出一种基于球队进攻关键区域优化防守策略的方法;方法通过对比赛过程中的日志文件进行解析,使用数据挖掘方法提取动作链和传球热力图解释了球队进攻有侧重点的合理性...  相似文献   

5.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

6.
基于多步回溯Q(λ)学习算法的多目标最优潮流计算   总被引:1,自引:1,他引:1  
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性.  相似文献   

7.
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。  相似文献   

8.
针对多障碍物未知环境下,自主移动机器人局部路径规划过程中出现的路径冗余和避障问题,提出了基于坐标匹配的Q学习算法(Coordinate Matching-Q learning算法,CM-Q算法)。首先建立自主移动机器人栅格地图运行环境;其次以Q学习算法探索和学习最佳状态-动作对,并利用坐标匹配的CM算法进行避障;最后在未知障碍物环境中进行路径规划,对所提出的算法进行验证。实验结果表明,运用该方法,自主移动机器人能在未知的简单和复杂障碍物环境下规划出一条最优或次优路径,完成避障和路径规划任务。  相似文献   

9.
一种多移动机器人协作围捕策略   总被引:8,自引:0,他引:8  
提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响.  相似文献   

10.
基于CMAC(cerebella model articulation controller)提出一种动态强化学习方法(dynamic cerebellamodel articulation controller-advantage learning,DCMAC-AL)。该方法利用advantage(λ)learning计算状态-动作函数,强化不同动作的值函数差异,以避免动作抖动;然后在CMAC函数拟合基础上,利用Bellman误差动态添加特征值,提高CMAC函数拟合的自适应性。同时,在RoboCup仿真平台上对多智能体防守任务(takeaway)进行建模,利用新提出的算法进行学习实验。实验结果表明,DCMAC-AL比采用CMAC的advantage(λ)learning方法有更好的学习效果。  相似文献   

11.
一种基于支持向量回归方法在RoboCup中的应用   总被引:2,自引:0,他引:2  
对RoboCup中截球问题引入了支持向量回归方法,通过采集样本训练预测模型来预测Agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究,最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明,在截球距离的预测精度方面要优于传统的广义回归神经网络。  相似文献   

12.
基于模糊推理的踢球技术在足球机器人中的实现   总被引:2,自引:0,他引:2  
提出一种基于模糊规则作为先验知识的启发式搜索算法,解决足球机器人中的踢球问题.算法借助球员控球空间的离散化,采用模糊规则对离散后的动作进行评价,成功地描述了球在状态空间任意一对离散点间移动的代价值.以此作为路径寻找的启发性知识,通过启发式搜索算法可寻找到最优的解决方案。  相似文献   

13.
针对标准Q学习收敛较慢的缺点,采用多步Q学习算法,为解决连续过程的学习问题,采用CMAC神经网络对连续状态空间进行泛化,讨论了基于CMAC的多步Q学习算法应用于导航系统的实现方法,并与其他方法进行仿真比较,结果了表明了该算法的有效性。  相似文献   

14.
为了提高分类的精确度,提出一种基于粗糙集理论的增强学习型分类器。采用分割算法对训练数据集中连续的属性进行离散处理;利用粗糙集理论获取约简集,从中选择一个能提供最高分类精确度的约简。对于不同的测试数据,由于离散属性值的变化,相同的约简可能达不到最高的分类精确度。为克服此问题,改进了Q学习算法,使其全面系统地解决离散化和特征选择问题,因此不同的属性可以学习到最佳的分割值,使相应的约简产生最大分类精确度。实验结果表明.该分类器能达到98%的精确度.与其它分类器相比.表现出较好的性能。  相似文献   

15.
机器人足球(RoboCup)是研究多agent系统的体系结构、多agent团队合作理论以及机器学习方法的理想测试平台。介绍了开发的仿真球队NDSocTeam系统的设计原理和实现技术。系统设计了以机器学习技术为核心的球员agent结构,并建立了一种分层学习以及多种学习技术相结合的机器学习系统.重点描述了NDSocTeam系统的总体结构、球员agent的结构以及机器学习的实现技术。  相似文献   

16.
彭军  Wu  Ming  Guo  Rui  Kuo-chi  Lin 《高技术通讯(英文版)》2007,13(2):203-206
To solve the problem of convergence to a local optimum in the multi-layer feedforward neural network, a new disturbance gradient algorithm is proposed. Through introducing random disturbance into the training process, the algorithm can avoid being trapped into the local optimum. The random disturbance obeys the Boltzmann distribution. The convergence of the algorithm to the global optimum is statistically guaranteed. The application of the algorithm in RoboCup, which is a complex multi-agent system, is discussed. Experiment results illustrate the learning efficiency and generalization ability of the proposed algorithm.  相似文献   

17.
研究由能量收集发射节点、目的节点和窃听节点组成的能量收集通信系统中,以最大化平均保密传输速率为目标的发送功率控制问题.在环境状态信息事先未知,且系统模型中信道系数、电池电量、收集的能量连续取值的场景下,提出一种基于深度Q网络(deep Q network,DQN)的、仅依赖于当前系统状态的在线功率分配算法.将该功率分配...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号