期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

2.

基于动力学模型的工业机器人导纳控制研究

叶伯生陶婕妤张文彬李本旺《华中科技大学学报(自然科学版)》2020,48(8):98-102,108

提出了一种基于动力学模型的导纳控制算法,用来实现机器人末端力和位置的柔顺控制,可以在速度模式下控制机器人运动,以保证无外力接触时的轨迹跟踪精度.首先,根据牛顿-欧拉法建立机器人动力学模型;然后,通过粒子群算法辨识动力学模型参数,得到完整的动力学模型;在此基础上,计算机器人末端位置误差和外力,利用设计的导纳控制器实现机器人的柔顺控制,用Matlab的Simulink仿真模块验证了基于动力学模型导纳控制的有效性和可靠性.仿真结果表明:机器人末端没有与环境接触时,具有较高的跟踪精度;与环境接触时,机器人末端会产生位置误差和外力,从而实现机器人的柔顺控制. 相似文献

3.

基于动态延迟策略更新的TD3 算法

康朝海孙超荣垂霆刘鹏云《吉林大学学报(信息科学版)》2008,38(4):474-481

在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约 1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。相似文献

4.

基于深度强化学习的轨迹跟踪横向控制研究

张炳力佘亚飞《合肥工业大学学报(自然科学版)》2023,(7):865-872

针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。相似文献

5.

一种深度强化学习的机械臂控制方法

姬周珂徐巧玉李坤鹏王军委《河南科技大学学报(自然科学版)》2021,42(3):19-24

针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法.首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计.然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指... 相似文献

6.

基于深度强化学习的无人艇轨迹跟踪算法研究

夏家伟朱旭芳罗亚松吴兆东《华中科技大学学报(自然科学版)》2023,(5):74-80

针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法．为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数．为增强控制器的鲁棒性,生成轨迹任务数据集来模拟复杂的任务环境,以此作为深度强化学习控制器的训练样本输入．仿真结果表明：所提出的算法能有效收敛,具备扰动环境下的精确跟踪控制能力,有较大的实际应用潜力．相似文献

7.

一种基于交叉耦合的速度控制器 总被引：3，自引：0，他引：3

曹洋徐心和《东北大学学报(自然科学版)》2003,24(5):420-423

以足球机器人小车子系统为研究对象,通过对足球机器人小车轨迹跟踪误差的分析,建立了考虑轨迹跟踪精度的复合误差模型·提出一种基于模糊推理的交叉耦合误差补偿器的设计原理、算法及实现方法·该误差补偿器在不改变机器人小车内部速度环结构的条件下,通过向各轮提供附加补偿控制量,进而实现提高机器人小车轨迹跟踪的精度·针对足球机器人小车数学模型的仿真实验结果表明,该方法能够有效地提高机器人小车轨迹跟踪的精度· 相似文献

8.

基于干扰观测器的欠驱动AUV自适应反演控制

《中南大学学报(自然科学版)》2017,(1)

针对未知外界干扰存在的情况,提出一种基于非线性干扰观测器(NDO)的自适应反演控制,用于改善欠驱动自治水下机器人(AUV)深度跟踪控制性能。首先对欠驱动自治水下机器人的垂直面模型进行有条件的简化,得到新的运动学及动力学方程,建立简化后模型的状态方程;其次根据系统状态方程构建非线性观测器,设计自适应反演控制器,输出控制量根据李雅普诺夫稳定原理推导得出,确保包含非线性干扰观测器及自适应反演控制器在内的控制系统的一致渐进稳定性。研究结果表明:所设计的非线性干扰观测器以及自适应反演控制器可以实现欠驱动自治水下机器人在存在外界未知干扰情况下深度轨迹跟踪,具有较强的鲁棒性。相似文献

9.

行走机器人控制策略与开闭环学习控制 总被引：3，自引：1，他引：2

王斌锐谢华龙丛德宏徐心和《东北大学学报(自然科学版)》2005,26(8):722-725

主从式双腿协调控制用于异构双腿行走机器人可减少规划量,控制的关键是步态轨迹跟踪.仿生膝关节使机器人步态更加仿人;但仿生腿模型复杂,跟随人工腿步态控制困难.P型开闭环迭代学习控制结合开环和闭环学习控制优点,不依赖于模型,适用于复杂机器人轨迹跟踪控制.从开闭环结合角度,证明了算法收敛性.算法在虚拟样机上的仿真表明算法有效、鲁棒性好且收敛速度优于单独开或闭环学习控制. 相似文献

10.

改进的神经网络观测器在非线性系统中的应用 总被引：1，自引：0，他引：1

姜寅令李艳辉王海星《吉林大学学报(信息科学版)》2015,33(4):471-475

为降低非线性观测器对模型精度的依赖性, 提出一种非传统的神经网络观测器设计方法。该神经网络为三层前馈网络, 采用带修正项的误差反传算法进行训练, 以保证控制的精度和权值有界, 利用神经网络识别系统的非线性部分, 并结合传统的龙伯格观测器重构系统状态; 利用Lyapunov 直接法保证基于权值误差的非观测器的稳定性, 并将该观测器应用于机器人轨迹跟踪控制中。仿真结果表明, 该方法解决了模型不确定系统状态观测问题, 适用于模型精度较低的非线性系统。相似文献

11.

基于深度强化学习的无人机姿态控制器设计

王伟吴昊刘鸿勋杨溢《科学技术与工程》2023,23(34):14888-14895

为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计。该方法通过神经网络,将四旋翼无人机的状态直接映射到输出。本文的强化学习算法是结合深度确定性策略(deep deterministic policy gradient,DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法可以对目标值进行快速地追踪且有着较强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。相似文献

12.

深度强化学习的通用插件研究综述

下载免费PDF全文

钟欣见王永华李明《河北科技大学学报》2024,45(4):362-372

深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点：1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。相似文献

13.

航空器智能引导机动决策奖励重塑方法

王壮艾毅文旭光李辉《科学技术与工程》2023,23(8):3535-3543

针对使用深度强化学习进行航空器智能引导研究中存在的飞行轨迹质量差、训练效率低等问题,对应用于机动决策生成的奖励重塑方法进行了研究。首先,构建了航空器引导机动决策生成的深度强化学习模型;其次,从指令连续性和相对姿态两个角度设计了奖励重塑函数,并证明了使用重塑函数前后的策略一致性;最后,在不同类型目的地场景中进行了仿真实验。仿真结果表明,奖励重塑方法对航空器飞行轨迹质量和智能体训练效率有明显的提升。使用本方法快速训练的智能体,可以准确、高效地生成机动决策,引导航空器完成任务。相似文献

14.

具有未知侧滑和打滑的WMR强化学习自适应神经网络控制

下载免费PDF全文

叶锦华吴海彬《福州大学学报(自然科学版)》2016,44(2):219-224

利用反演设计,提出一种强化学习自适应神经网络轮式移动机器人(WMR)轨迹跟踪控制方法.首先在极坐标下建立WMR的轨迹跟踪误差模型,并基于此设计运动学控制器.然后,针对WMR动力学系统,设计自适应神经网络控制器.结合强化学习机制,同时对系统未知侧滑、打滑和模型不确定性进行优化补偿,并引入鲁棒控制项来消除补偿误差的影响,进一步提高了控制效果.所提控制方法使得闭环系统稳定,且最终一致有界收敛,其有效性通过数值仿真结果得到了验证. 相似文献

15.

基于DDPG算法的风力发电机变桨距控制研究

张前何山黄嵩董新胜杨定乾胡帅《科学技术与工程》2023,23(18):7764-7771

风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。相似文献

16.

基于优先级经验回放的SAC强化学习算法

刘庆强刘鹏云《吉林大学学报(信息科学版)》2021,39(2):192-199

针对SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样,造成训练速度慢,训练过程不稳定的缺点,提出了PER(Prioritized Experience Replay)-SAC算法.通过将优先级经验采样引入SAC算法,使网络优先训练值估计函数误差较大和策略表现不好的样本,从而提高了Agent训练过程的稳定性与收敛速度.实验结果表明,在多个环境及优化算法下,PER-SAC算法在训练速度及稳定性上相比于SAC算法均有明显提升. 相似文献

17.

AUV同时定位与跟踪算法研究

王闯卢健黄杰《西安工程科技学院学报》2014,(5):556-562

为了提高自治水下航行器的水下适应能力,对比目标跟踪与协同导航的概念,并仿照同时定位与制图方法,提出了基于EKF-SLAM框架和FastSLAM框架的自治水下航行器同时定位与跟踪算法.根据装备在携带低精度自定位传感器AUV上的声纳传感器持续探测非合作目标并估计目标航迹的同时,利用探测到的AUV与目标间的相对信息修正其自身航位推算带来的累积估计误差,从而提高AUV的自定位精度,AUV的定位和目标的状态估计同时进行,且要满足一定的精度.仿真比较了所提出的两种算法的精度,并验证了算法的有效性和一致性. 相似文献

18.

基于改进的DDPG算法的蛇形机器人路径规划方法

下载免费PDF全文

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

19.

基于深度强化学习的大型活动关键交叉口信号控制

宋太龙贺玉龙刘钦《科学技术与工程》2023,23(22):9694-9701

大型活动举办时期,场馆周边路网的交通压力与日常交通运行状态存在差异,活动场馆周边关键交叉口的正常运行是保证大型活动顺利举办的重要因素之一,应采取动态的管控方式以达到提高关键交叉口通行效率、满足参与大型活动出行者交通需求的目的。为此,文中基于A2C（Advantage Actor Critic）的强化学习算法,考虑大型活动背景下出行者数量大且大多采用公共交通出行的特点,在奖励函数构建过程中将车辆排队时间细分为出行者不同出行方式的车辆等待时间,通过引入参数,修正不同车型的奖励计算方法,使智能体在信号配时优化的过程中优先考虑大型活动参与者的出行需求。最后,以北京市首都体育馆周边大型交叉口为例,借助交通流仿真软件SUMO进行仿真实验,仿真实验结果证明,修改奖励函数结构后的A2C信号控制方法在控制效果上优于定时信号控制以及基于DQN（Deep-Q-Network）算法的控制方法,可以达到提高交叉口公共交通以及整体车流通行效率的目的。相似文献

20.

采用改进神经网络PID控制的移动机器人轨迹追踪控制研究

下载免费PDF全文

李蕾刘建鹏《井冈山大学学报(自然科学版)》2019,40(1):68-72

为了提高双轮移动机器人运动轨迹追踪精度,采用改进粒子群算法优化BP神经网络PID控制器,并对控制效果进行仿真验证。创建双轮移动机器人模型简图,给出运动轨迹误差方程式。在传统PID控制基础上增加BP神经网络结构,引用粒子群算法并对其进行改进,采用改进粒子群算法优化BP神经网络PID控制调整参数,给出双轮移动机器人PID控制参数优化流程。采用数学软件MATLAB对双轮移动机器人轨迹追踪误差进行仿真验证,并与传统PID控制追踪误差进行对比。仿真曲线显示:在理想环境中,双轮移动机器人采用两种控制方法都能较好地实现轨迹追踪,追踪误差较小;在干扰波形环境中,传统PID控制双轮移动机器人追踪误差较大,而改进PID控制双轮移动机器人追踪误差较小。采用改进粒子群算法优化BP神经网络PID控制器,可以提高移动机器人运动轨迹追踪精度。相似文献