首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。  相似文献   

2.
王伟  吴昊  刘鸿勋  杨溢 《科学技术与工程》2023,23(34):14888-14895
为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计。该方法通过神经网络,将四旋翼无人机的状态直接映射到输出。本文的强化学习算法是结合深度确定性策略(deep deterministic policy gradient,DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法可以对目标值进行快速地追踪且有着较强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。  相似文献   

3.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

4.
基于双延迟深度确定性策略梯度算法对单臂机器人倒立摆在Simulink软件环境中进行仿真,并与深度确定性策略梯度算法进行比较,验证该算法的控制精度以及在机器人控制中的应用可行性;建立单臂机器人倒立摆仿真模型,添加摩擦模型,并以单臂机器人参数辨识所得的实际参数对所建立的仿真模型加以约束,提高实际应用时的控制精度与实时性;在训练过程中对摆杆随机施加一定数值范围内的干扰力,提高训练模型的抗干扰能力;根据所建立仿真模型的特点设计、改进Actor-Critic网络及奖励函数,在短时间内以较小的控制力使末端摆杆从初始状态摆动至竖直状态并持续保持。结果表明,改进的双延迟深度确定性策略梯度算法可以在减小输出控制力的同时对机械臂末端姿态实现并保持精准控制,并且在受到干扰力时可自行调整,改善了训练模型的鲁棒性与适应性,减少了运行时间。  相似文献   

5.
针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法.首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计.然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指...  相似文献   

6.
深度学习算法作为机器学习中的一种重要算法,在图像处理、语音识别、机器翻译等领域已成功应用.将深度学习算法应用于高频交易中,选取卷积神经网络和LSTM神经网络分别构建涨跌分类模型,在此基础上提出高频交易策略,并以沥青期货主力合约为例进行回测检验,实证分析策略优良性.通过与人工神经网络高频交易策略的比较,回测检验结果表明基于卷积神经网络和LSTM神经网络的高频交易策略的盈利能力较强,泛化能力较好,两种策略的胜率和期望收益虽有所差异,但均比人工神经网络高频交易策略高.  相似文献   

7.
针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。  相似文献   

8.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.  相似文献   

9.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态...  相似文献   

10.
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双 延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中,通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网 络的延迟更新步长。实验结果表明,与原始TD3 算法在2 000 步获得较高的奖励值相比,DD-TD3 方法可在约 1 000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号