期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周盛世单梁常路陈佳刘成林李军《南京理工大学学报(自然科学版)》2021,45(3):265-270,287

为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数.为了符合机器人运动学模型,设计连续的状态和动作空间.采用Python语言,在不同地图下分别使用人工势场法、原始DDP G和该文改进的DDP G算法进行仿真对比实验.改进的... 相似文献

2.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

3.

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策

下载免费PDF全文

郭万春解武杰尹晖董文瀚《空军工程大学学报(自然科学版)》2021,22(4):15-21

针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态... 相似文献

4.

基于双延迟深度确定性策略梯度的综合能源微网运行优化

谢启跃应雨龙《济南大学学报(自然科学版)》2022,(3):301-307

为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。相似文献

5.

一种深度强化学习的机械臂控制方法

姬周珂徐巧玉李坤鹏王军委《河南科技大学学报(自然科学版)》2021,42(3):19-24

针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法.首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计.然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指... 相似文献

6.

基于MADDPG的多AGVs路径规划算法

尹华一尤雅丽黄新栋段青娜《厦门理工学院学报》2024,(1):37-46

针对多辆自动导引车系统（automated guided vehicle system,AGVs）在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度（MADDPG）的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度（DDPG）算法和双延迟深度确定性策略梯度（TD3）算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。相似文献

7.

一级倒立摆的双回路PID控制

李琳《科技咨询导报》2012,(32):75-76

利用牛顿-欧拉方法方法建立了一阶倒立摆的数学模型,参照固高科技的倒立摆系统参数,得到了倒立摆系统的状态空间方程及其传递函数,设计了双回路PID控制器,实现了摆杆角度和小车位移的同时稳定。最后,通过Matlab仿真验证了所提算法的有效性。相似文献

8.

基于二级倒立摆的自适应神经网络模糊控制

肖霞秦毅《辽宁师范大学学报(自然科学版)》2007,30(4):438-441

针对二级倒立摆系统,提出了一种先进的智能控制策略．该种方法采用BP算法与梯度下降法结合的混合算法对Takagb-Sugeno模糊模型中的前项及后件参数进行优化修正,在已获得的客观输入输出数据对的基础上,提出一种基于自适应神经网络的模糊推理系统ANFIS来对倒立摆系统进行建模和控制．仿真结果表明,所提出的设计方法是正确的和可行的．相似文献

9.

基于粒子群算法的变论域模糊控制在二级倒立摆中的研究

王伟陈跃东《新余高专学报》2016,(4):111-114

为了实现二级倒立摆系统的快速稳定控制,设计了一款基于粒子群算法的变论域模糊控制器。通过对二级倒立摆系统结构和参数的分析,建立了二级倒立摆的数学模型,再利用粒子群算法优化了变论域模糊控制器的参数,改进了控制器的性能,最后通过仿真证明该算法切实可行。相似文献

10.

基于神经网络的非线性动力系统控制研究

曹丽娟和颖秋李守巨《科学技术与工程》2008,8(17)

基于改进BP神经网络,建立了一种自适应在线控制模型,并且该控制方法应用到离散非线性动力系统和倒立摆系统控制问题。为了避免BP神经网络在训练过程中的目标函数局部极小值问题,提出了一种基于BFGS优化算法的神经网络训练方法。与其它控制方法相对比,所提出的基于神经网络的倒立摆控制方法具有较高的控制精度。通过离散时间系统的控制模拟和倒立摆模型系统的控制两个算例,验证了所提出的控制方法的具有有效性和很好的控制效率。相似文献

11.

机器人步态算法仿真研究

冼进毕盛庄钟杰《科学技术与工程》2011,11(21):5066-5069

以仿人机器人双足步行为研究重点,实现了线性倒立摆步行规划和正逆运动学算法。推导出机器人机械结构对线性倒立摆步行参数的约束条件,并采用遗传算法探索参数空间以得到可行、稳定、快速的步行模式。最后,在该仿真平台上验证了步态生成算法的有效性。相似文献

12.

基于深度强化学习的机器人未知环境路径规划

程瑞嘉吴玉秀张捍东《皖西学院学报》2023,(2):55-61+89

为解决未知环境中移动机器人的自主路径规划问题，提出了一种基于深度确定性策略梯度(DDPG)的改进算法。该算法通过激光雷达数据、机器人位姿以及速度信息建立策略映射，在连续动作域中输出线、角速度直接控制机器人底盘运动。设计了新的连续奖惩函数，缓解了奖励稀疏问题；融合了优先经验回放机制、人工演示数据机制以及多控制器引导机制，提高了算法训练效率。通过ROS+Gazebo平台进行模型训练，训练结果表明，改进算法仅需原始算法训练步数的47%,就获得了相同水平的奖励；设计对比实验，结果表明，相较于原始算法和传统的局部路径规划动态窗口法，改进算法在无碰撞的基础上运动轨迹更加平滑且耗时更短，验证了改进算法的有效性。最后搭建轮式差速机器人平台，设计未知环境导航实验，证明了算法的实用性。相似文献

13.

基于动态延迟策略更新的TD3 算法

康朝海孙超荣垂霆刘鹏云《吉林大学学报(信息科学版)》2008,38(4):474-481

在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约 1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。相似文献

14.

基于二级倒立摆的改进算法的小波神经网络控制

王建双卢云达《科技资讯》2012,(6):22-23

针对小波变换的时频局域化性质,并结合传统神经网络的自学习能力,将小波变换与神经网络融合对二级倒立摆系统进行控制,并在采用共轭梯度算法训练网络时,由于搜索方向和步长计算存在误差,使得产生的各搜索方向不能保证相互共轭,故对该算法进行改进,即在线性搜索时加上区间定位和区间缩小来尽快找到极小点。有效的改善了梯度学习算法收敛速度慢的缺点。仿真结果表明,采用改进的共轭梯度算法的小波神经网络能够很好的实现二级倒立摆的稳定控制,且控制效果好。相似文献

15.

一级旋转倒立摆及其控制装置的研究与实现

王来志杨雨浓《西南师范大学学报(自然科学版)》2016,41(8)

通过拉格朗日方程推导出一级旋转倒立摆系统的数学模型,起摆运动部分利用雅普诺夫方程分析,以摆杆势能偏差作为调控量对系统进行闭环控制,使系统摆杆运动受控,在倒立摆成功摆起后,在倒立摆非稳定平衡点处对系统模型进行线性化,并采用双闭环PID算法对倒立摆模型旋臂位置和摆臂位置进行稳定控制,并使用32位MCU搭建实验平台进行实际验证.结果表明,该控制方法可以实现旋臂静止和摆臂稳定于非稳定平衡点的效果. 相似文献

16.

基于渐进式神经网络的机器人控制策略迁移

《中国科学技术大学学报》2019,(10)

在机器人领域,通过深度学习方法来解决复杂的控制任务非常具有吸引力,但是收集足够的机器人运行数据来训练深度学习模型是困难的.为此,提出一种基于渐进式神经网络(progressive neural network,PNN)的迁移算法,该算法基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)框架,通过把模型池中的预训练模型与目标任务的控制模型有机地结合起来,从而完成从源任务到目标任务的控制策略的迁移.两个仿真实验的结果表明,该算法成功地把先前任务中学习到的控制策略迁移到了目标任务的控制模型中.相比于其他基准方法,该算法学习目标任务所需的时间大大减少. 相似文献

17.

基于改进的DDPG算法的蛇形机器人路径规划方法

下载免费PDF全文

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

18.

基于动态查询表的模糊控制策略及其应用 总被引：5，自引：0，他引：5

刘晟陈杰龚志豪白明《北京理工大学学报》2002,22(3):347-350

研究基于动态查询表的模糊控制策略及其在转臂式倒立摆中的应用.采用一种新的倒立摆系统的控制方法,将传感器检测的倒立摆的两个角度信息传送到控制器,控制器利用该信息的模糊化量按基于动态查询表的模糊控制策略进行实时计算,由得出的控制量控制力矩电机驱使摆杆运动,从而使摆臂处于动态的直立状态.采用C++语言实现了对倒立摆的控制.实验结果表明,这种控制方式能够提高系统的控制精度. 相似文献

19.

基于Mamdani分离变量法的倒立摆模糊控制系统设计 总被引：1，自引：1，他引：0

阮俊瑾丁肇红《上海应用技术学院学报：自然科学版》2008,8(4)

针对倒立摆系统中因多输入单输出而产生的模糊规则爆炸问题,采用一种基于Mamdani分离变量的模糊控制方法,从而大大减少了模糊控制规则数。仿真结果表明,该方法能使摆杆摆角控制精度较小,且小车位移能跟踪输入信号,成功控制了单级倒立摆系统。相似文献

20.

基于线性倒立摆模型的双足机器人步态规划

隋振于文成田彦涛徐名源《吉林大学学报(信息科学版)》2017,35(2):175-182

为解决多关节自由度双足机器人的步态规划问题, 提出了一种改进的三维线型倒立摆模型步态规划算法。该方法将双足机器人简化为三维线性倒立摆模型, 在得到机器人的质心参考轨迹的同时规划摆动腿的轨迹, 通过机器人的运动学逆解即可求出各关节运动序列。在对质心轨迹求解过程中, 与传统方法通过双脚支撑阶段调整质心速度实现步态稳定的方法不同, 该算法通过求解支撑腿最优交替时刻的方法最大化单脚支撑阶段的范围, 实现机器人的高效稳定行走。以 NAO 机器人为实验对象, 对算法进行了仿真实验, 实验结果表明, 该算法是可行、有效的。相似文献