首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
机器人的动作是一切活动的基本单元。就足球机器人而言,好的动作设计实现是决策实现的重要保证。传统的强化学习模型在整个学习过程中使用恒定学习速率,导致在未知环境下收敛速度慢,且适应性差。针对以上问题,提出了一种新的动作发育模型——基于新奇的动作发育模型;该模型在学习过程中使用基于状态的遗忘均值的学习速率,更加符合人类发育的真实过程。模型采用内在价值系统,该系统由三部分组成:奖励、惩罚和新奇评判。在机器人足球比赛中,通过机器人截球实验表明,该模型在不断变化的环境下可以高效而准确地完成相应的截球动作。  相似文献   

2.
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息,对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。本文提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

3.
王腾  李长江 《科学技术与工程》2011,11(5):979-982,1011
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息。对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

4.
清华机器人足球队的结构设计与实现   总被引:26,自引:0,他引:26  
为建立一套新型的机器人系统 ,以满足机器人足球比赛的要求 ,设计并实现了清华机器人足球队。在介绍国际机器人足球比赛 (Robo Cup)环境的基础上 ,按照智能程度由低到高的顺序 ,论述了从动作层到决策层的实现方法。包括机器人的整体结构 ,运用多层前馈神经元网络学习个人技术 ,运用优先级方法设计机器人的顶层决策算法来实现多个机器人的合作与对抗。机器人系统完全满足 Robo Cup比赛的要求 ,并在中国 Robo Cup2 0 0 0锦标赛中取得了好成绩。对国内相关领域的研究以及兄弟院校开发机器人足球队具有重要意义  相似文献   

5.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

6.
发育模型是目前具有自主认知能力的发育机器人研究的热点,为解决发育模型问题,定义了发育机器人的体系结构,以及信息处理流程中的算法问题,并针对现有模型不能解决机器人“诱拐”问题,给出了一个任务驱动的发育模型。该模型结构将具有自主环境感知能力的发育机器人结构分为3层:物理层、信号处理层以及发育层。其中,物理层由传感系统、执行机构以及机器人本体组成;信号处理层主要负责实现传感信号的处理;发育层是发育机器人的核心,由特征提取与发育体组成,特征提取可以将大量的传感数据压缩到很少的几维以方便处理,发育体是整个系统的决策机构,负责感知与动作的匹配。  相似文献   

7.
针对多障碍物未知环境下,自主移动机器人局部路径规划过程中出现的路径冗余和避障问题,提出了基于坐标匹配的Q学习算法(Coordinate Matching-Q learning算法,CM-Q算法)。首先建立自主移动机器人栅格地图运行环境;其次以Q学习算法探索和学习最佳状态-动作对,并利用坐标匹配的CM算法进行避障;最后在未知障碍物环境中进行路径规划,对所提出的算法进行验证。实验结果表明,运用该方法,自主移动机器人能在未知的简单和复杂障碍物环境下规划出一条最优或次优路径,完成避障和路径规划任务。  相似文献   

8.
针对双足机器人在未知环境行走过程中步态不稳的问题,提出了一种基于近端策略优化(proximal policy optimization, PPO)的双足机器人控制方法.首先,构建动作网络和价值网络,引入长短时记忆(long short-term memory, LSTM),以缩小双足机器人与未知环境交互时的状态估计值与期望值之间的偏差;其次,在动作网络中引入注意力机制,自适应改变神经网络自主学习的权重系数,以提高学习效率,得到适应不同环境的稳定步态;最后,通过仿真实验验证所提算法的有效性.结果表明:改进后近端策略优化算法的收敛速度更快,学习效率更高,能够有效提高双足机器人自适应行走的稳定性.  相似文献   

9.
一种带有实时视觉特征学习的自主发育机器人探索   总被引:3,自引:0,他引:3  
能根据实时的环境如人一样进行自主发育学习是近年刚刚提出的、根据生物和认知的原理的一个新思想,因提出的方法复杂度高,所需的机器人平台的要求也比较高,在研究了增量获取特征和自主发育算法的基础上,把视觉特征抽取和自主发育结合在一起,通过一定的简化,形成能在简单的平台上实现的简化系统.经实验模拟证实该系统能够实时抽取视频图像的特征并实现移动机器人对环境的主动辨别和认知.  相似文献   

10.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

11.
多智能足球机器人系统的关键技术   总被引:15,自引:1,他引:14  
以NEWNEU参加机器人足球世界杯赛(FIRARWC99)的基于视觉型微型足球机器人系统MIROSOT为背景,详细介绍了机器人足球的关键应用技术·采用模糊神经网络和自学习专家系统的分层智能控制系统是当前机器人足球系统的研究方向·具有人工智能的自主型步行足球机器人是足球机器人的长远发展目标·  相似文献   

12.
足球机器人比赛是一个动态时变非线性的环境,各运动对象难以建立精确的数学模型,仿人智能算法以人的思维方式、行为和直觉推理为基础,在足球机器人路径规划过程中避开了求解繁琐的对象模型时遇到的问题,显示出了其独特的优势。文中讲述了仿人智能算法在足球机器人路径规划中的应用方法,并通过实例仿真表明了算法的可行性和有效性。  相似文献   

13.
针对Robocup中型组全自主足球机器人自主协作任务,基于人工免疫机理对机器人个体及群体体系结构进行优化,采用个体混合式体系结构与群体分布式体系提高系统性能。构建适用于比赛环境的足球机器人免疫系统模型,充分考虑模型中抗体与抗原及其他抗体间的激励和抑制作用,给出在动态环境下面临复杂协作任务时的足球机器人协调控制算法及流程,改善多足球机器人冲突的混乱局面,增强足球机器人策略行为的有效性,提高足球机器人系统的智能协作性。实验结果验证:该算法可以有效的增强足球机器人的协作能力,提高规定时间内的平均成功进功率与平均成功进球率。  相似文献   

14.
基于粒子群算法的足球机器人动作选择研究   总被引:4,自引:0,他引:4  
提出一个基于粒子群算法的足球机器人的动作选择算法。该算法给出了一个足球机器人的动作集合,根据赛场的实际情况为足球机器人分配角色与任务,并利用粒子群算法为足球机器人选择合适的动作。  相似文献   

15.
针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性.  相似文献   

16.
综合了Raibert和Craig提出的机器人位置/力的Hybrid Control及Yoshikawa提出的机器人动态混合控制算法的基本思想,针对作业环境及其力学扰动难以辨识及机构振动等问题,提出了基于机器人装配作业的PI自学习混合控制方法,并根据此方法实现了三自由度机器人的圆柱二维插入作业。实验结果表明,该方法可以有效地实现机器人的销孔装配作业并抑制或缓冲机构的振动现象。  相似文献   

17.
研究RoboCup比赛未知环境中足球机器人的路径规划问题。提出一种多优化设计快速扩展随机树(rapidly exploring random tree,RRT)的足球机器人路径规划算法,解决了足球机器人在路径规划中存在的速度慢、效果差的问题。依据基本RRT算法原理,针对其随机性强、收敛速度慢以及路径平滑效果差的缺点,提出了随机采样点处增加引力分量、多步扩展逼近目标点以及冗余节点的剪裁与路径平滑等优化方式。在不同障碍物地图中的仿真实验表明,优化的规划路径长度比基本快速扩展随机树算法所得路径缩短约20%~30%,采样点数量减少45%~65%。最终将优化算法移植到SimRobot仿真平台,结果表明多优化设计RRT算法在未知环境中具备良好的实时性和鲁棒性,能够满足机器人在赛场上的路径规划要求。  相似文献   

18.
针对标准Q学习收敛较慢的缺点,采用多步Q学习算法,为解决连续过程的学习问题,采用CMAC神经网络对连续状态空间进行泛化,讨论了基于CMAC的多步Q学习算法应用于导航系统的实现方法,并与其他方法进行仿真比较,结果了表明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号