首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。  相似文献   

2.
本文提出基于改进TD3算法的车道保持端到端决策新方案.首先,构建多数据融合TD3算法框架,感知自主车辆运动学数据信息和视觉图像信息来提升算法的稳定性.并且结合注意力机制思想细化图像特征,使得算法关注重要道路信息,以此增强算法可解释性.其次,综合考虑驾驶的安全性、舒适性和效率性因素设计了指导型奖励函数,以引导智能体学到更加类人的驾驶策略.最后,采用分类与高价值优先级经验回放方法 ,以提高样本利用率和加快算法收敛速度.借助TORCS仿真平台,设计了多组对比实验,以验证所提方法的有效性和可行性;并且通过多个场景的仿真测试,验证了改进TD3算法的整体性能优于TD3算法.  相似文献   

3.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态...  相似文献   

4.
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。  相似文献   

5.
为了解决高移动性导致卫星网络路由难以计算的问题,融合图神经网络和深度强化学习,提出一种基于深度图强化学习的低轨卫星网络动态路由算法。考虑卫星网络拓扑和卫星间链路的可用带宽、传播时延等约束,构建卫星网络状态,通过图神经网络对其进行表示学习;根据此状态的图神经网络表示,深度强化学习智能体选择相应的决策动作,使卫星网络长期平均吞吐量达到最大并保证平均时延最小。仿真结果表明,所提算法在保证较小时延的同时,还能提升卫星网络吞吐量和降低丢包率。此外,图神经网络强大的泛化能力使所提算法具有更好的抗毁性能。  相似文献   

6.
7.
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。  相似文献   

8.
为减少软件更新中增量包的大小,提出了基于动态字典的增量更新算法DICDIFF。该算法使用后缀排序方法预处理新老版本文件,将预处理的结果以后缀数组和名次数组的形式存储为字典目录,基于该字典目录能够快速查找字典数据集与待编码数据之间的相同数据段。随着编码进度的推进,动态扩展字典数据集能够使用更多已知数据段用于构造待编码数据。通过选取多款软件的新旧版本作为实验样本,DICDIFF在平均情况下能够节省68.9%的网络流量,高于现有其他增量更新算法。实验结果表明,该算法能够进一步减少增量更新过程中的网络流量。  相似文献   

9.
10.
策略梯度算法是深度强化学习领域中广泛使用的一类无模型强化学习方法,在实际应用中取得了突破性进展。策略梯度算法一直受到梯度估计方差大的困扰,基于参数探索的策略梯度算法(policy gradients with parameter based exploration,PGPE)从根本上缓解了该问题。通过最优基线技术的引入,策略梯度估计的方差进一步减小。然而,现有最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间的差异。针对此问题,本文提出一种向量基线概念并推导PGPE算法的最优向量基线表示,在理论上证明了引入最优向量基线的PGPE算法可以得到更小的梯度估计方差,并且实验验证了此算法的有效性。  相似文献   

11.
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习. 仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性.  相似文献   

12.
针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性.  相似文献   

13.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

14.
自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,本文改进了DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明本文提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。  相似文献   

15.
风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。  相似文献   

16.
基于Q-学习的动态单机调度   总被引:1,自引:0,他引:1  
针对当前基于Q-学习的Agent生产调度优化研究甚少的现状,利用Q-学习对动态单机调度问题在3种不同系统目标下的调度规则动态选择问题进行了研究.在建立Q-学习与动态单机调度问题映射机制的基础上,通过MATLAB实验仿真,对算法性能进行了评价.仿真结果表明,对于不同的系统调度目标,Q-学习能提高Agent的适应能力,达到单一调度规则无法达到的性能,适合基于Agent的动态生产调度环境.  相似文献   

17.
基于改进即时学习算法的动液面软测量建模   总被引:1,自引:0,他引:1  
油田动液面参数软测量预测应用中,软测量模型随生产的进行会逐步退化,导致预测结果偏差较大,无法在油田生产过程中加以使用.对此,提出采用基于子空间相似度的即时学习策略来对动液面预测模型进行自适应动态更新.通过对生产阶段数据进行子空间的相似度计算,提高建模样本选取的准确性.设计两个记忆参数改变以往即时学习策略模型的更新方法,在减少计算量的同时提高动液面的预测精度.与以往即时学习算法进行实验对比,结果表明,改进算法对油田动液面测量精度高,适应性强,符合油田生产标准,可以应用于油田实际生产.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号