期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

2.

基于强化学习的全自主机器人足球系统协作研究

王腾《科学技术与工程》2011,(4)

从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息,对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。本文提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示：新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。相似文献

3.

发育学习在足球机器人基本动作技能中的应用

朱智华《科学技术与工程》2010,10(8)

研究了发育学习算法及其在机器人足球比赛技术动作学习问题中的应用。结合发育学习算法的优点,选用合适的强化学习算法,并将其应用于足球机器人动作技能的学习中。无需任何先验知识和环境模型,通过不断与环境交互获得知识,自主地进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视。最后,给出了试验结果分析,并验证了该算法的优越性和有效性,并且能够满足高水准机器人足球比赛的需要。相似文献

4.

基于机械记忆的词汇学习研究

谭立重《渝西学院学报(自然科学版)》2006,(3)

本文调查了普通高校学生的词汇记忆现象,发现机械记忆单词非常普遍,通过实验研究表明,用机械记忆法记忆与自身水平相当的词汇是可行的,但在记忆难度超出自己水平的词汇时,效果不是太好,所以我们建议采用机械记忆法时,应该区别词汇难度有选择地记忆单词. 相似文献

5.

基于深度强化学习的移动机器人视觉图像分级匹配算法

李晓峰任杰李东《吉林大学学报(理学版)》2023,61(1):127-135

针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动图像按正确方向移至参考图像;其次,在粗匹配过程中通过设计奖赏函数,实现颜色特征粗匹配;最后,在粗匹配基础上,利用改进尺度不变特征变换算法提取待匹配的图像局部特征,按相似度进行移动机器人视觉图像分级匹配.实验结果表明,该算法可有效实现图像的粗匹配与精匹配,在不同视角与尺度情况下特征检测的稳定性均较高,匹配精度高、时间短,匹配后的图像质量较好,提高了移动机器人的实际应用效果. 相似文献

6.

基于机械记忆的词汇学习研究

谭立重《重庆文理学院学报(自然科学版)》2006,5(3):58-60

本文调查了普通高校学生的词汇记忆现象，发现机械记忆单词非常普遍，通过实验研究表明，用机械记忆法记忆与自身水平相当的词汇是可行的，但在记忆难度超出自己水平的词汇时，效果不是太好，所以我们建议采用机械记忆．法时，应该区别词汇难度有选择地记忆单词．相似文献

7.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

8.

欠驱动机器人强化学习算法仿真及结果分析

臧希喆王晓林吴晓光刘鑫宇《江南大学学报(自然科学版)》2012,11(2):132-136

针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性. 相似文献

9.

Design of evolvable hardware for robotic navigation

Yong Liu Tetsuya Higuchi Masaya Iwata 《武汉大学学报:自然科学英文版》2001,6(1-2):547-554

This paper presents an integrated on-line learning system to evolve programmable logic array (PLA) controllers for navigating an autonomous robot in a two-dimensional environment. The integrated online learning system consists of two learning modules: one is the module of reinforcement learning based on temporal-difference learning based on genetic algorithms, and the other is the module of evolutionary learning based on genetic algorithms. The control rules extracted from the module of reinforcement learning can be used as input to the module of evolutionary learning, and quickly implemented by the PLA through on-line evolution. The on-line evolution has shown promise as a method of learning systems in complex environment. The evolved PLA controllers can successfully navigate the robot to a target in the two-dimensional environment while avoiding collisions with randomly positioned obstacles. 相似文献

10.

The intellectualized architecture of the autonomous micro-mobile robot based-behavior

Yang Yu-jun Cheng Jun-shi Chen Jia-pin Li Xiao-hai 《武汉大学学报:自然科学英文版》2002,7(4):437-444

Given the difficulty in hand-coding task schemes, an intellectualized architecture of the autonomous micro-mobile robot based-behavior for fault-repair was presented. Integrating the reinforcement learning and the group behavior evolution simulating the human’s learning and evolution, the autonomous micro-mobile robot will automatically generate the suited actions satisfied the environment. However, the designer only devises some basic behaviors, which decreases the workload of the designer and cognitive deficiency of the robot to the environment. The results of simulation have shown that the architecture endows micro robot with the ability of learning, adaptation and robustness, also with the ability of accomplishing the given task. Foundation item: Supported by the National Natural Science Foundation of Chine (69889050) Biography: Yang Yu-jun (1975-), male, Ph.D. candidate,research direction: multi-agent system, machine learning and intelligent control. 相似文献

11.

基于视觉的足球机器人决策规划研究进展

厉广伟曹爱增尹建芹《济南大学学报(自然科学版)》2006,20(2):155-159

机器人足球比赛的核心系统是决策规划。对整个机器人足球决策子系统分层加以论述，主要介绍了国内外关于机器人足球决策的一些主要研究成果和最新进展。既介绍了传统的基于规则的方法，也讨论了基于模糊逻辑、遗传算法、强化学习等智能方法的决策技术。并就关键问题进行了分析和探讨，同时对机器人足球的发展趋势做了展望。相似文献

12.

瞬变电磁勘探中的人工神经网络反演法 总被引：3，自引：0，他引：3

李创社张彦鹏李实张立新《西安交通大学学报》2001,35(6):604-607,615

为使瞬变电磁勘探的反演法简单和通用,提出了一种瞬变电磁勘探吵的人工神经网络反演法,基于人工神经网络的BP算法,设计和开发了一个自适应的人工神经网络反演系统,该系统避免了复杂的电磁场计算,只需经过学习训练就能够解决复杂的实际问题,而且具有记忆功能,从而使瞬变电磁法的反演工作具有延续性和可继承性,通过对实际的地质数据进行反演,结果表明,该方法是切实可行的。相似文献

13.

基于激光雷达的移动机器人实时避障策略 总被引：5，自引：0，他引：5

蔡自兴郑敏捷邹小兵《中南大学学报(自然科学版)》2006,37(2):324-329

以激光雷达为主要传感器, 对移动机器人设计一种实时避障算法. 该算法考虑到机器人的非完整约束, 利用基于圆弧轨迹的局部路径规划和控制使之能够以平滑的路径逼近目标位置. 采用增强学习的方法来优化机器人的避障行为, 利用激光雷达提供的报警信息形成刺激-反应式行为, 实现了动态环境下避障行为, 具有良好的实时反应能力. 该控制算法采用分布式软件设计方法, 各功能模块异步运行, 较好地实现了局部规划与全局导航目标的结合. 该策略针对移动机器人MORCS在未知环境下实现了实时、有效避障, 动作稳定流畅, 轨迹平滑, 具有良好的效果. 相似文献

14.

基于强化学习的全自主机器人足球系统协作研究

王腾李长江《科学技术与工程》2011,11(5):979-982,1011

从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息。对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。相似文献

15.

仿生水下机器人的增强学习姿态镇定 总被引：1，自引：0，他引：1

林龙信谢海斌沈林成《北京科技大学学报》2012,(1):76-79

针对一类双波动鳍仿生水下机器人的姿态镇定问题,提出一种基于增强学习的自适应PID控制方法.对增强学习自适应PID控制器进行了具体设计,包括PD控制律和基于增强学习的参数自适应方法.基于实际模型参数对偏航角镇定问题进行了仿真试验.结果表明,经过较小次数的学习控制后,仿生水下机器人的偏航角镇定性能得到明显改善,而且能够在短时间内对一般性扰动进行抑制,表现出了较好的适应性. 相似文献

16.

基于信任度分配的小脑模型节点控制器改进算法及其收敛性分析 总被引：4，自引：1，他引：3

张蕾曹其新李杰张春余《上海交通大学学报》2005,39(3):377-380,385

针对传统小脑模型节点控制器(CMAC)算法中的学习干扰现象,给出了一种基于信任度分配的CMAC改进算法(CA-CMAC).该算法将每个存储单元被激活次数的倒数作为该单元的信任度,误差的分配与该单元的信任度成正比.然后提出了信任度矩阵和信任度关联矩阵的概念,并根据线性方程组迭代理论,证明了改进算法在增量学习时的收敛性,给出了收敛条件并进行了验证.通过二自由度平面机器人臂逆动力学求解的仿真,比较了CA-CMAC与传统CMAC的性能,结果表明,CA-CMAC具有更快的收敛速度. 相似文献

17.

基于Q学习的无人机三维航迹规划算法

郝钏钏方舟李平《上海交通大学学报》2012,46(12):1931-1935

针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性. 相似文献

18.

基于嵌人式环境的智能移动机器人跟踪控制

下载免费PDF全文

李嘉琦王希同丁肇红《上海应用技术学院学报：自然科学版》2016,16(3):271-274

基于自主搭建的履带式移动机器人研究了一个P型迭代学习控制算法,它使移动机器人能够根据位置和速度偏差的大小及方向,实时控制其在运动过程中的变化趋势,以获得合适的学习增益矩阵,达到更好的控制效果.利用设计的P型迭代学习控制算法,对履带式移动机器人的路径规划与路径跟踪实现准确的控制.实验结果表明,迭代学习控制可使履带式移动机器人在路径跟踪控制过程中有更好的稳定性、准确性和快速性. 相似文献

19.

环境自适应软体机器人驱动方式和路径规划研究

尤小丹宋小波陈峰《南通工学院学报(自然科学版)》2013,(3):28-33

软体机器人具有优越的柔软性能,能够灵活的穿越狭小的空间,并且对非结构化环境具有较强的自主适应能力．驱动方式和路径规划是软体机器人的关键,其驱动分为有缆驱动和无缆驱动．采用气动、形状记忆合金、电活性聚合物、聚合凝胶等作为驱动器．气动、形状记忆合金之类的驱动器灵活度低、自由度少;电活性聚合物以及聚合凝胶之类的驱动器灵活度高、自由度高．软体机器人的路径规划主要采用人工智能算法,在实际使用中还存在一系列的问题需要继续研究．比如概率路线法和碰撞检测法都易陷入局部最小点与最优点：遗传算法运算效率不高、在线规划困难：神经网络算法泛化能力差等．现在可用的智能算法都只适用特定的物体而不适用通用可变形物体．未来需要致力于柔性驱动器以及新型路径规划算法的研究．相似文献

20.

基于Agent的机器人足球赛中的再励学习算法

唐勇陈宝峰张大鹏陈琛《燕山大学学报》2005,29(4):324-327

关于Agent个体的机器学习一直是Agent研究的一个重要方面，本文对再励学习中的Q学习算法做了简单介绍，然后在一个基于Agent的机器人足球赛平台上将Q学习算法引入，并进行了对比实验。相似文献