首页 | 本学科首页   官方微博 | 高级检索  
     

采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
引用本文:王垚儒,李俊. 采用双经验回放池的噪声流双延迟深度确定性策略梯度算法[J]. 武汉科技大学学报, 2020, 0(2): 147-154
作者姓名:王垚儒  李俊
作者单位:1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2.武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065,1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2.武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065
基金项目:国家自然科学基金资助项目(61572381);武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).
摘    要:为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。

关 键 词:深度确定性策略梯度  TD3算法  深度强化学习  噪声流  多步截断双Q学习  双经验回放池
收稿时间:2019-08-29

Noisy twin delayed deep deterministic policy gradient algorithm using double experience replay buffers
Wang Yaoru and Li Jun. Noisy twin delayed deep deterministic policy gradient algorithm using double experience replay buffers[J]. Journal of Wuhan University of Science and Technology, 2020, 0(2): 147-154
Authors:Wang Yaoru and Li Jun
Affiliation:1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China and 1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China
Abstract:
Keywords:deep deterministic policy gradient   TD3 algorithm   deep reinforcement learning   noise flow   multi-step clipped double Q-learning   double experience replay buffers
本文献已被 CNKI 等数据库收录!
点击此处可从《武汉科技大学学报》浏览原始摘要信息
点击此处可从《武汉科技大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号