首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。  相似文献   

2.
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息,对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。本文提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

3.
研究了发育学习算法及其在机器人足球比赛技术动作学习问题中的应用。结合发育学习算法的优点,选用合适的强化学习算法,并将其应用于足球机器人动作技能的学习中。无需任何先验知识和环境模型,通过不断与环境交互获得知识,自主地进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视。最后,给出了试验结果分析,并验证了该算法的优越性和有效性,并且能够满足高水准机器人足球比赛的需要。  相似文献   

4.
本文调查了普通高校学生的词汇记忆现象,发现机械记忆单词非常普遍,通过实验研究表明,用机械记忆法记忆与自身水平相当的词汇是可行的,但在记忆难度超出自己水平的词汇时,效果不是太好,所以我们建议采用机械记忆法时,应该区别词汇难度有选择地记忆单词.  相似文献   

5.
针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动图像按正确方向移至参考图像;其次,在粗匹配过程中通过设计奖赏函数,实现颜色特征粗匹配;最后,在粗匹配基础上,利用改进尺度不变特征变换算法提取待匹配的图像局部特征,按相似度进行移动机器人视觉图像分级匹配.实验结果表明,该算法可有效实现图像的粗匹配与精匹配,在不同视角与尺度情况下特征检测的稳定性均较高,匹配精度高、时间短,匹配后的图像质量较好,提高了移动机器人的实际应用效果.  相似文献   

6.
本文调查了普通高校学生的词汇记忆现象,发现机械记忆单词非常普遍,通过实验研究表明,用机械记忆法记忆与自身水平相当的词汇是可行的,但在记忆难度超出自己水平的词汇时,效果不是太好,所以我们建议采用机械记忆.法时,应该区别词汇难度有选择地记忆单词.  相似文献   

7.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

8.
针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性.  相似文献   

9.
This paper presents an integrated on-line learning system to evolve programmable logic array (PLA) controllers for navigating an autonomous robot in a two-dimensional environment. The integrated online learning system consists of two learning modules: one is the module of reinforcement learning based on temporal-difference learning based on genetic algorithms, and the other is the module of evolutionary learning based on genetic algorithms. The control rules extracted from the module of reinforcement learning can be used as input to the module of evolutionary learning, and quickly implemented by the PLA through on-line evolution. The on-line evolution has shown promise as a method of learning systems in complex environment. The evolved PLA controllers can successfully navigate the robot to a target in the two-dimensional environment while avoiding collisions with randomly positioned obstacles.  相似文献   

10.
Given the difficulty in hand-coding task schemes, an intellectualized architecture of the autonomous micro-mobile robot based-behavior for fault-repair was presented. Integrating the reinforcement learning and the group behavior evolution simulating the human’s learning and evolution, the autonomous micro-mobile robot will automatically generate the suited actions satisfied the environment. However, the designer only devises some basic behaviors, which decreases the workload of the designer and cognitive deficiency of the robot to the environment. The results of simulation have shown that the architecture endows micro robot with the ability of learning, adaptation and robustness, also with the ability of accomplishing the given task. Foundation item: Supported by the National Natural Science Foundation of Chine (69889050) Biography: Yang Yu-jun (1975-), male, Ph.D. candidate,research direction: multi-agent system, machine learning and intelligent control.  相似文献   

11.
机器人足球比赛的核心系统是决策规划。对整个机器人足球决策子系统分层加以论述,主要介绍了国内外关于机器人足球决策的一些主要研究成果和最新进展。既介绍了传统的基于规则的方法,也讨论了基于模糊逻辑、遗传算法、强化学习等智能方法的决策技术。并就关键问题进行了分析和探讨,同时对机器人足球的发展趋势做了展望。  相似文献   

12.
瞬变电磁勘探中的人工神经网络反演法   总被引:3,自引:0,他引:3  
为使瞬变电磁勘探的反演法简单和通用,提出了一种瞬变电磁勘探吵的人工神经网络反演法,基于人工神经网络的BP算法,设计和开发了一个自适应的人工神经网络反演系统,该系统避免了复杂的电磁场计算,只需经过学习训练就能够解决复杂的实际问题,而且具有记忆功能,从而使瞬变电磁法的反演工作具有延续性和可继承性,通过对实际的地质数据进行反演,结果表明,该方法是切实可行的。  相似文献   

13.
基于激光雷达的移动机器人实时避障策略   总被引:5,自引:0,他引:5  
以激光雷达为主要传感器, 对移动机器人设计一种实时避障算法. 该算法考虑到机器人的非完整约束, 利用基于圆弧轨迹的局部路径规划和控制使之能够以平滑的路径逼近目标位置. 采用增强学习的方法来优化机器人的避障行为, 利用激光雷达提供的报警信息形成刺激-反应式行为, 实现了动态环境下避障行为, 具有良好的实时反应能力. 该控制算法采用分布式软件设计方法, 各功能模块异步运行, 较好地实现了局部规划与全局导航目标的结合. 该策略针对移动机器人MORCS在未知环境下实现了实时、有效避障, 动作稳定流畅, 轨迹平滑, 具有良好的效果.  相似文献   

14.
王腾  李长江 《科学技术与工程》2011,11(5):979-982,1011
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息。对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

15.
仿生水下机器人的增强学习姿态镇定   总被引:1,自引:0,他引:1  
针对一类双波动鳍仿生水下机器人的姿态镇定问题,提出一种基于增强学习的自适应PID控制方法.对增强学习自适应PID控制器进行了具体设计,包括PD控制律和基于增强学习的参数自适应方法.基于实际模型参数对偏航角镇定问题进行了仿真试验.结果表明,经过较小次数的学习控制后,仿生水下机器人的偏航角镇定性能得到明显改善,而且能够在短时间内对一般性扰动进行抑制,表现出了较好的适应性.  相似文献   

16.
针对传统小脑模型节点控制器(CMAC)算法中的学习干扰现象,给出了一种基于信任度分配的CMAC改进算法(CA-CMAC).该算法将每个存储单元被激活次数的倒数作为该单元的信任度,误差的分配与该单元的信任度成正比.然后提出了信任度矩阵和信任度关联矩阵的概念,并根据线性方程组迭代理论,证明了改进算法在增量学习时的收敛性,给出了收敛条件并进行了验证.通过二自由度平面机器人臂逆动力学求解的仿真,比较了CA-CMAC与传统CMAC的性能,结果表明,CA-CMAC具有更快的收敛速度.  相似文献   

17.
针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性.  相似文献   

18.
基于自主搭建的履带式移动机器人研究了 一个P型迭代学习控制算法,它使移动机器人 能够根据位置和速度偏差的大小及方向,实时控制其在运动过程中的变化趋势,以获得合适的学习 增益矩阵,达到更好的控制效果.利用设计的P型迭代学习控制算法,对履带式移动机器人的路径 规划与路径跟踪实现准确的控制.实验结果表明,迭代学习控制可使履带式移动机器人在路径跟踪 控制过程中有更好的稳定性、准确性和快速性.  相似文献   

19.
软体机器人具有优越的柔软性能,能够灵活的穿越狭小的空间,并且对非结构化环境具有较强的自主适应能力.驱动方式和路径规划是软体机器人的关键,其驱动分为有缆驱动和无缆驱动.采用气动、形状记忆合金、电活性聚合物、聚合凝胶等作为驱动器.气动、形状记忆合金之类的驱动器灵活度低、自由度少;电活性聚合物以及聚合凝胶之类的驱动器灵活度高、自由度高.软体机器人的路径规划主要采用人工智能算法,在实际使用中还存在一系列的问题需要继续研究.比如概率路线法和碰撞检测法都易陷入局部最小点与最优点:遗传算法运算效率不高、在线规划困难:神经网络算法泛化能力差等.现在可用的智能算法都只适用特定的物体而不适用通用可变形物体.未来需要致力于柔性驱动器以及新型路径规划算法的研究.  相似文献   

20.
现有移动机器人规划算法生成轨迹目标单一,无法满足多样化的任务需求,为此,提出一种多指标维度反馈的路径规划策略。基于强化学习在线决策机制,寻求多条抵达目标的无碰撞路径;进而根据路径性能特征建立价值评估体系,动态更新机器人运动节点间的动作代价值,并且在不同权重配比下进行了仿真测试。结果表明:该算法能根据需求针对性提高全局路径相关性能,并结合全局路径信息,反馈控制局部运动决策,从而使得移动机器人能够在相同环境中解算出不同满足期望的运动决策。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号