首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

2.
为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数.为了符合机器人运动学模型,设计连续的状态和动作空间.采用Python语言,在不同地图下分别使用人工势场法、原始DDP G和该文改进的DDP G算法进行仿真对比实验.改进的...  相似文献   

3.
针对基本蚁群算法在规划自动导引车(automated guided vehicle, AGV)路径时易出现的耗时长、搜索效率低、收敛速度慢以及易陷入局部最优等不足,文章提出一种优化蚁群算法。首先利用辅助蚁群的方向优势,帮助主蚁群初始化信息素,使路径搜索更具有针对性,提高路径搜索效率;其次加入伪随机状态转移策略,增加路径选择的多样性,防止算法过早收敛;接着使用蚁群的当前最优解、主蚁群一代蚁群中的最优解、最差解进行全局信息素更新,并引入最大最小蚂蚁系统对路径上的信息素进行限制;最后对栅格环境中的凹形障碍物进行处理,提高搜索质量。仿真实验表明,优化蚁群算法相较于其他蚁群算法,收敛速度更快、搜索能力更优。  相似文献   

4.
为解决未知环境中移动机器人的自主路径规划问题,提出了一种基于深度确定性策略梯度(DDPG)的改进算法。该算法通过激光雷达数据、机器人位姿以及速度信息建立策略映射,在连续动作域中输出线、角速度直接控制机器人底盘运动。设计了新的连续奖惩函数,缓解了奖励稀疏问题;融合了优先经验回放机制、人工演示数据机制以及多控制器引导机制,提高了算法训练效率。通过ROS+Gazebo平台进行模型训练,训练结果表明,改进算法仅需原始算法训练步数的47%,就获得了相同水平的奖励;设计对比实验,结果表明,相较于原始算法和传统的局部路径规划动态窗口法,改进算法在无碰撞的基础上运动轨迹更加平滑且耗时更短,验证了改进算法的有效性。最后搭建轮式差速机器人平台,设计未知环境导航实验,证明了算法的实用性。  相似文献   

5.
针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地探索未知环境,为后续的训练过程提供足够的环境状态信息.在学习轨迹层,将探索轨迹层的训练结果作为“先验知识”用于该层训练,提高训练效率.在路径规划层,利用智能体之前获得的skill来完成路径规划任务.通过仿真对比MES-HRL与SNN-HRL算法在不同环境下的性能表现,仿真结果显示,MES-HRL算法解决了传统算法的探索问题,具有更出色的路径规划能力.  相似文献   

6.
优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中...  相似文献   

7.
针对自动引导小车(automated guided vehicle, AGV)全局最优路径的求解问题,文章利用栅格法对环境进行建模,提出一种基于改进狼群算法(improved wolf pack algorithm, IWPA)的AGV路径规划方法。该算法采用混沌映射形成初始种群,增加种群多样性;对探狼游走行为引入随机策略,扩大搜索范围;对头狼的选择引入Metropolis准则,增强算法跳出局部最优能力;改进猛狼奔袭策略,提高算法后期寻优效率。通过8个典型测试函数的仿真实验结果表明,改进的算法在寻优速度和精度上均有较大的提高。将改进的算法应用于路径规划仿真实验,结果表明,相比于传统狼群算法,改进的狼群算法在解决AGV路径规划问题上更有效。  相似文献   

8.
自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,本文改进了DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明本文提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。  相似文献   

9.
本文采用智能体进化算法来解决迷宫中路径规划问题。通过分析迷宫路径规划问题的特点,对所采用的智能体进化算法的各个环节进行了细致的分析,包括问题的定义、智能体的表示和编码、行为及智能体能量函数的设计。  相似文献   

10.
多智能体路径发现(MAPF)是一个具有挑战性和有意义的问题,其中要求所有智能体在不相互碰撞和避免障碍的情况下有效地达到其目标地点。在多智能体路径发现中,有效地提取和表达智能体的观察结果、有效地利用历史信息以及与相邻智能体之间的有效通信是完成多智能体协作任务所面临的挑战。为了解决这些问题,本文提出了一个精心设计的模型,利用附近智能体的局部状态,并为每个智能体输出一个最优的执行动作。我们通过使用残差注意力卷积神经网络(residual attention CNN)来提取局部观测构建局部观测编码器,并使用Transformer架构来构建交互层来组合智能体的局部观测。为了提高该模型的成功率。我们还引入了一种新的指标,即额外时间比率(ETR)。实验结果表明,我们提出的模型在成功率和ETR方面优于以前的大多数模型。此外,我们还完成了对模型的消融研究,并证明了模型各组成部分的有效性。  相似文献   

11.
针对基本蚁群算法的缺点,提出用多策略的蚁群算法求解机器人路径规划问题.采用栅格法建立机器人全局路径规划工作空间模型,进行两次凸化改进处理.提出惩罚策略,并配合使用保健算子策略、治病算子策略,同时引入遗传算子策略、精英蚂蚁策略和最大最小蚂蚁策略.介绍在Matlab环境下编程实现的方法及步骤,求解100个栅格点的路径规划问题,得到最优距离为15.070.仿真结果表明,即使在复杂的地形环境中用本算法也可迅速规划出令人满意的最优路径.  相似文献   

12.
多智能体路径规划旨在解决多个智能体在同一工作空间内生成无碰撞路径的问题,是智能体无人化工作的关键支撑技术。基于回溯思想和自适应局部避障策略,提出了一种双阶段多智能体路径规划算法。在全局路径规划阶段,基于回溯思想改进的RRT~*(rapidly-exploring random trees star)算法(back tracking rapidly-exploring random trees star, BT-RRT~*),减少无效父节点,并确保各智能体生成优化的无碰撞路径。在协作避障阶段,智能体依据自身的任务优先级制定局部避障策略,避开动态障碍物和其他智能体。实验结果表明,该算法可成功寻找较优路径,还可降低避障时间。  相似文献   

13.
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。  相似文献   

14.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

15.
一种基于强化学习的自适应变步长路径规划算法   总被引:1,自引:0,他引:1  
在基于神经网络结构的机器人全局路径规划算法中,利用强化学习的思想,引进评价预测学习的自适应变步长算法,实现了步长的在线自动调节,加快了路径规划的计算速度。仿真试验表明,该算法能有效实现步长参数的在线自动调节,并使路径规划收敛速度平均提高了10倍以上。  相似文献   

16.
针对复杂室内环境下移动机器人的路径规划问题,提出一种面向多目标同时优化的改进萤火虫算法;该算法利用栅格地图对机器人作业环境进行建模,将Pareto支配关系引入到萤火虫个体的亮度评价过程,构建精英库保留算法迭代过程中的Pareto非支配解,采用自适应网格划分策略维护种群的多样性;以路径长度、路径安全性和路径平滑度为目标进行运动路径的搜索与优化。仿真结果表明,与经典的带精英策略的非支配排序遗传算法相比,面向多目标同时优化的改进萤火虫算法求得Pareto非支配解集更优越。  相似文献   

17.
一种基于RRT-ConCon改进的路径规划算法   总被引:2,自引:0,他引:2  
针对RRT算法缺乏稳定性和收敛速度慢的问题,基于RRT-ConCon算法和朝向目标搜索的策略,提出了一种改进的双向搜索路径规划算法.该算法通过改变两条搜索路径的临时扩展目标点,使搜索路径不仅易于朝着目标点方向生长,而且提高了算法的稳定性,同时可以保证规划的路径接近最优解.改进的RRT-ConCon算法利用随机节点生成函数,使朝着目标点生长的搜索路径避免陷入局部极小值.同时,为了测试各种仿真实验环境,还设计了一种仿真实验环境平台,实验结果验证了本算法的有效性和稳定性.  相似文献   

18.
风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。  相似文献   

19.
传统蚁群算法因在复杂环境中容易产生死锁,导致部分蚂蚁失效,造成效率低下,迭代次数增多。为此,提出了一种利用环境信息引入环境因子来调整启发函数的方法从而降低死锁情况的发生,增加了有效蚂蚁的数量,从整体上提高了蚁群的搜索速度,扩大了搜索范围。同时,传统蚁群算法在路径规划中仅在理想地域内寻求最短路径,而多因素环境中最短路径往往并非最优解。为解决此问题通过在不同环境中对转移概率进行加权优化在追求路径最短的基础上提出多目标路径规划,丰富了蚁群算法的实用性和现实意义。最后经仿真实验对优化算法进行验证,证明了上述优化的可行性。  相似文献   

20.
针对车辆的越野路径规划问题,设计了以最少行驶时间为目标的多策略蚁群算法。首先,分析了地形坡度和地表属性对于车辆路径规划的综合影响,通过叠加坡度与粗糙度约束建立了禁忌表;其次,一方面引入了自适应调整策略以提高路径搜索的有效性,另一方面设计了双向搜索策略以增加蚂蚁之间的协作能力和成功路径的搜索机率;另外,还提出了子路径多段交叉策略以提高算法的全局搜索能力和收敛速度,在详细叙述改进算法的步骤之后,优化了算法的部分参数取值;最后,就基本算法和改进算法的性能指标、收敛代数和仿真结果进行了比较与分析。实验结果表明,改进算法能够快速有效地实现越野路径规划,较之基本算法有一定的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号