期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程瑞嘉吴玉秀张捍东《皖西学院学报》2023,(2):55-61+89

为解决未知环境中移动机器人的自主路径规划问题，提出了一种基于深度确定性策略梯度(DDPG)的改进算法。该算法通过激光雷达数据、机器人位姿以及速度信息建立策略映射，在连续动作域中输出线、角速度直接控制机器人底盘运动。设计了新的连续奖惩函数，缓解了奖励稀疏问题；融合了优先经验回放机制、人工演示数据机制以及多控制器引导机制，提高了算法训练效率。通过ROS+Gazebo平台进行模型训练，训练结果表明，改进算法仅需原始算法训练步数的47%,就获得了相同水平的奖励；设计对比实验，结果表明，相较于原始算法和传统的局部路径规划动态窗口法，改进算法在无碰撞的基础上运动轨迹更加平滑且耗时更短，验证了改进算法的有效性。最后搭建轮式差速机器人平台，设计未知环境导航实验，证明了算法的实用性。相似文献

2.

基于MADDPG的多AGVs路径规划算法

尹华一尤雅丽黄新栋段青娜《厦门理工学院学报》2024,(1):37-46

针对多辆自动导引车系统（automated guided vehicle system,AGVs）在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度（MADDPG）的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度（DDPG）算法和双延迟深度确定性策略梯度（TD3）算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。相似文献

3.

基于改进DDPG算法的机器人路径规划算法研究

周盛世单梁常路陈佳刘成林李军《南京理工大学学报(自然科学版)》2021,45(3):265-270,287

为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数.为了符合机器人运动学模型,设计连续的状态和动作空间.采用Python语言,在不同地图下分别使用人工势场法、原始DDP G和该文改进的DDP G算法进行仿真对比实验.改进的... 相似文献

4.

改进的DDPG算法在机器人路径规划中的应用

张宁葛斌《佳木斯大学学报》2021,39(5):119-122

深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性. 相似文献

5.

一种深度强化学习的机械臂控制方法

姬周珂徐巧玉李坤鹏王军委《河南科技大学学报(自然科学版)》2021,42(3):19-24

针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法.首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计.然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指... 相似文献

6.

基于改进的DDPG算法的蛇形机器人路径规划方法

下载免费PDF全文

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

7.

具有优先级的深度确定性策略梯度算法在自动驾驶中的应用

下载免费PDF全文

金彦亮刘千红季泽宇《上海大学学报(自然科学版)》2023,29(1):105-117

深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快. 相似文献

8.

基于深度强化学习的高频交易优化算法

饶瑞潘志松黎维刘松仪张磊李云波《南京理工大学学报(自然科学版)》2022,46(3):304-312

为解决高频交易的高额交易费用问题,该文提出了一种融合长短期记忆(LSTM)网络细胞结构的深度确定性策略梯度交易算法。该算法利用细胞结构对当前信息和历史特征进行环境特征提取和保存,用于指导交易决策。通过深度确定性策略梯度算法实现在线自动交易,并考虑了交易费率和收盘价格对奖励函数的影响。在上证50指数基金的分钟级数据上进行实验,结果表明,该算法能有效捕获稍纵即逝的交易机会,是一种低风险高收益的稳健型投资策略;LSTM细胞结构和所设的奖励函数能大幅减少交易次数,不仅增加了算法对交易费率的包容性,还提升了收益的稳定性。相似文献

9.

基于深度强化学习的轨迹跟踪横向控制研究

张炳力佘亚飞《合肥工业大学学报(自然科学版)》2023,(7):865-872

针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。相似文献

10.

基于强化学习的机器人路径规划算法 总被引：1，自引：0，他引：1

《华中科技大学学报(自然科学版)》2018,(12)

提出了一种基于强化学习的机器人路径规划算法,该算法将激光雷达所获取的移动机器人周围障碍物信息与目标点所在方位信息离散成有限个状态,进而合理地设计环境模型与状态空间数目;设计了一种连续的报酬函数,使得机器人采取的每一个动作都能获得相应的报酬,提高了算法训练效率.最后在Gazebo中建立仿真环境,对该智能体进行学习训练,训练结果验证了算法的有效性;同时在实际机器人上进行导航实验,实验结果表明该算法在实际环境中也能够完成导航任务. 相似文献

11.

一种基于深度强化学习的SDN路由算法

下载免费PDF全文

丁怀宝《上海师范大学学报(自然科学版)》2021,50(1):128-132

为解决软件定义网络(SDN)中的流量工程(TE)问题,提出了一种深度强化学习路由(DRL-Routing)算法.该算法使用较全面的网络信息来表示状态,并使用一对多的网络配置来进行路由选择,奖励函数可以调整往返路径的网络吞吐量.仿真结果表明,DRL-Routing可以获得更高的奖励,并且经过适当的训练后,能使各交换机之间... 相似文献

12.

基于DDPG算法的风力发电机变桨距控制研究

张前何山黄嵩董新胜杨定乾胡帅《科学技术与工程》2023,23(18):7764-7771

风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。相似文献

13.

拱泥机器人避障运动分析及其系统仿真

颜兵兵任福君《科技导报(北京)》2008,26(5):56-59

路径规划问题是拱泥机器人研究中的一项关键技术。在概述拱泥机器人的基本构成,分析其规划策略的基础上,提出拱泥机器人避障运动控制器路径规划算法,并通过仿真实验得以验证,实现了局部规划与全局导航目标的有机结合。基于该规划策略及其算法,设计集数据接口、硬件接口、数学运算接口和图形化接口为一体的避障运动仿真系统。结果表明,该规划策略对拱泥机器人在未知泥土环境下实现动作稳定、轨迹平滑的避障运动具有良好的效果。相似文献

14.

机器人路径规划的一种改进蚁群算法

尉朝闻黎田《科技信息》2010,(35):J0101-J0102

介绍了一种静态环境下机器人路径规划的改进蚁群算法。该算法使用栅格法对机器人的工作空间进行建模。搜索过程采用了蚂蚁落入陷阱回退策略和蚂蚁相遇策略,从而避免了遇到陷阱时形成的路径死锁情况,同时也提高了最优路径的搜索效率。仿真研究表明,该算法能明显改善路径规划性能,并且算法简单有效。相似文献

15.

基于椭圆建模和NLP算法的移动机器人路径规划研究

林冠西吴怀宇陈洋《科学技术与工程》2014,14(23)

针对移动机器人在未知环境中探测和规避障碍物困难等问题,提出一种基于椭圆建模和自然语言处理(nataral language processing,NLP)算法的移动机器人路径规划方法。首先将激光采集的点信息进行分类和最小椭圆包围,建立障碍物的椭圆模型并估算出障碍物的速度。然后采用NLP算法,把移动机器人在未知环境中的路径规划问题,描述成了满足一组非线性约束和目标函数最小的非线性规划问题,从而实现复杂未知环境下机器人的路径规划。最后进行物理与仿真实验,验证了该方法的有效性。相似文献

16.

基于改进灰狼优化算法的区域监测机器人路径规划

李靖杨帆《科学技术与工程》2020,20(15):6122-6129

为了解决大任务量作业监测中机器人路径规划问题,提出了一种区域监测的机器人路径规划算法。模拟大任务量监测真实环境进行问题建模。针对传统灰狼优化算法求解模型时全局搜索能力差且易陷入局部最优解的问题,提出了一种改进的灰狼优化算法。引入Logistic混沌映射,以加强初始化种群的多样性;引入一种控制参数的自适应调整策略,以平衡灰狼优化算法的搜索能力和开发能力;引入静态加权平均权重策略,更新种群位置,加快收敛速度。将机器人载电量与路径长度短作为约束,引入K-means算法进行任务聚类,通过改进灰狼优化算法对模型进行离线求解以规划出路径,将大任务量监测作业自动转换成分时分步作业。实验结果表明:通过国际通用6个基准函数进行测试,改进的灰狼优化算法在收敛速度、搜索精度及稳定性上均有明显提高。通过50任务点与100任务点作业场景对机器人路径规划模型进行算法仿真,验证了算法的真实有效性,且任务量越大模型优越性越好,路径缩短比例越高。相似文献

17.

非结构环境下移动机器人路径规划

姚俊武张林仙《科技导报(北京)》2010,28(22):82-85

非结构环境中的路径规划是自主移动机器人研究领域最活跃的领域之一,其最有效的方法是人工势场法,但传统的人工势场法存在振荡和接近目标时跟踪速度下降等问题。针对这些问题,改进了传统的势场函数,引入速度势场函数,设计新的人工势场函数,规划了移动机器人移动策略。根据新的势场函数和移动策略,在Matlab环境下对机器人的路径规划进行仿真。结果表明,在新的势场函数作用下,机器人能够快速调整自身速度的大小和方向,避开障碍并迅速到达目的地或跟踪动态目标。相似文献

18.

基于动态延迟策略更新的TD3 算法

康朝海孙超荣垂霆刘鹏云《吉林大学学报(信息科学版)》2008,38(4):474-481

在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约 1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。相似文献

19.

基于曲线路径算法的2D仿真机器鱼水球斯诺克比赛策略

王洪辉卓天祥钟盼孟令宇 YANG Jia-xin 庹先国《科学技术与工程》2017,17(22)

为了提高水中机器人2D仿真平台斯诺克赛项的得分,基于URWPGSim 2D(underwater robot water polo game simulator 2D)仿真平台,采用最短距离和最小旋转角度求和比较的方法,实验得出了机器鱼以不同速度行进时其偏转角度呈奇偶特征,以此研究了其比赛策略和带球算法。在策略上,确定了红球-粉球组合最优、红球进洞顺序为从左到右、红球进中上洞、粉球进左下洞。基于此,确定了一种基于曲线路径的带球算法,给出了中上洞、左下洞带球进洞路径规划,采用虚拟点位和距离阈值的模糊控制理论来实现算法。仿真结果表明：优化后的带球算法效率高,实际比赛效果好,所提出的比赛策略和带球算法可应用于水下机器人运动控制。相似文献