采用双经验回放池的噪声流双延迟深度确定性策略梯度算法 |
| |
作者姓名: | 王垚儒 李俊 |
| |
作者单位: | 1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2.武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065,1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2.武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065 |
| |
基金项目: | 国家自然科学基金资助项目(61572381);武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06). |
| |
摘 要: | 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
|
关 键 词: | 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池 |
收稿时间: | 2019/8/29 0:00:00 |
Noisy twin delayed deep deterministic policy gradient algorithm using double experience replay buffers |
| |
Authors: | Wang Yaoru and Li Jun |
| |
Institution: | 1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China and 1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China |
| |
Abstract: | |
| |
Keywords: | deep deterministic policy gradient TD3 algorithm deep reinforcement learning noise flow multi-step clipped double Q-learning double experience replay buffers |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《》浏览原始摘要信息 |
| 点击此处可从《》下载免费的PDF全文 |
|