首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
针对道路长期性能养护决策中庞大的数据分析问题,将深度确定性策略梯度(deep deterministic policy gradient, DDPG)强化学习模型引入到了养护决策分析中,将道路性能的提升及养护资金的有效利用作为机器学习的奖励目标,建立了一套科学有效的沥青路面长期性能养护决策方法,经过与DQN(deep Q-learning network)算法和Q-Learning算法进行对比,DDPG算法所需要的采样数据更少、收敛速度更快,表现更为优异,可有效提升道路服役性能的评估效率,对沥青路面多目标长期养护决策方案的制定起着重要的推动作用。  相似文献   

2.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

3.
为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数.为了符合机器人运动学模型,设计连续的状态和动作空间.采用Python语言,在不同地图下分别使用人工势场法、原始DDP G和该文改进的DDP G算法进行仿真对比实验.改进的...  相似文献   

4.
针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。  相似文献   

5.
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。  相似文献   

6.
针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法.首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计.然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指...  相似文献   

7.
为了缓解车联网中个体车辆计算资源配置过低而导致的任务处理时延较大的问题,提出了一种移动边缘计算(mobile edge computing, MEC)架构下的动态任务卸载策略和资源分配方案。以最小化全网任务处理时延为目标,将车联网中的任务卸载和资源分配问题建模为马尔可夫决策过程(Markov decision process, MDP),并利用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法进行了问题求解。仿真结果表明,与执行者-评价者(actor-critic, AC)和深度Q网络(deep Q-network, DQN)这2种算法相比,DDPG算法以最快的算法收敛特性获得最小的全网任务处理时延。  相似文献   

8.
针对传统深度强化学习在求解无人机自主避障与目标追踪任务时所存在的训练效率低、环境适应性差的问题,在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),设计一种内外部元参数更...  相似文献   

9.
为解决未知环境中移动机器人的自主路径规划问题,提出了一种基于深度确定性策略梯度(DDPG)的改进算法。该算法通过激光雷达数据、机器人位姿以及速度信息建立策略映射,在连续动作域中输出线、角速度直接控制机器人底盘运动。设计了新的连续奖惩函数,缓解了奖励稀疏问题;融合了优先经验回放机制、人工演示数据机制以及多控制器引导机制,提高了算法训练效率。通过ROS+Gazebo平台进行模型训练,训练结果表明,改进算法仅需原始算法训练步数的47%,就获得了相同水平的奖励;设计对比实验,结果表明,相较于原始算法和传统的局部路径规划动态窗口法,改进算法在无碰撞的基础上运动轨迹更加平滑且耗时更短,验证了改进算法的有效性。最后搭建轮式差速机器人平台,设计未知环境导航实验,证明了算法的实用性。  相似文献   

10.
为了提高移动机器人在复杂环境下的无先验地图导航算法模型训练速度及导航成功率,提出一种基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的移动机器人导航方法。利用2D激光雷达的均匀分布测距信息,降低环境噪声的干扰及高维度环境信息的计算量;采用人工势场法构建移动机器人从初始位置到目标点过程的奖励函数;通过Actor-Critic网络结构提高模型训练的稳定性和泛化能力。实验结果表明,提出的方法具有模型训练速度快、导航成功率高及泛化能力强等优点。  相似文献   

11.
本文将DDPG算法中使用的Ornstein-Uhlenbeck (OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的DDPG和TD3算法和原始的DDPG和TD3算法,我们发现基于分数阶微积分的OU噪声相比于原始的OU噪声能在更大范围内震荡,使用分数阶OU噪声的算法在惯性环境下具有更好的探索能力,收敛得更快.  相似文献   

12.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

13.
王伟  吴昊  刘鸿勋  杨溢 《科学技术与工程》2023,23(34):14888-14895
为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计。该方法通过神经网络,将四旋翼无人机的状态直接映射到输出。本文的强化学习算法是结合深度确定性策略(deep deterministic policy gradient,DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法可以对目标值进行快速地追踪且有着较强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。  相似文献   

14.
交通信号系统控制着城市车辆运行秩序,其效率高低直接影响了社会经济的发展.以十字路口的交通信号控制系统为研究对象,基于深度确定性策略梯度网络DDPG提出了一种改进算法.结合交通环境的特点设计了特征增强和样本去重算法提高算法的性能.通过对实际交通系统运行情况进行调研,基于SUMO仿真环境搭建了交叉路口交通仿真平台.利用FEPG算法控制交通信号,实现了车辆的高效通行.实验结果表明,该算法能够有效地降低车辆等待时间,减少车辆的污染排放.  相似文献   

15.
基于深度学习的端到端车辆控制器多是由二维卷积神经网络(2D convolutional neural netuark,2D CNN)训练得到的,因未考虑时间维度上的帧间运动信息,使得控制器的可解释性与泛化能力较差,而三维卷积神经网络(3D CNN)可以从连续视频帧中学习时空特征。深度确定性策略梯度强化学习(depth deterministic policy gradient,DDPG)常用于连续动作的控制优化,但DDPG算法仍存在采样方式不合理而导致的样本利用率低的问题。基于此,采用3D CNN与改进DDPG算法相结合的方法对车辆方向盘转角和速度进行预测。通过实车实验实现了车辆在所设置轨道上的自主驾驶,为基于深度学习和强化学习方法解决自动驾驶中的端到端控制问题提供了科学方法。  相似文献   

16.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态...  相似文献   

17.
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。  相似文献   

18.
风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号