基于期望值函数的离策略深度Q神经网络算法 |
| |
引用本文: | 刘川莉,蔡乐才,高祥,居锦武,吴昊霖.基于期望值函数的离策略深度Q神经网络算法[J].四川理工学院学报(自然科学版),2019(1):52-60. |
| |
作者姓名: | 刘川莉 蔡乐才 高祥 居锦武 吴昊霖 |
| |
作者单位: | 四川轻化工大学自动化与信息工程学院;人工智能四川省重点实验室;宜宾学院;企业信息化与物联网测控技术四川省高校重点实验室;四川大学计算机学院 |
| |
摘 要: | 深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。
|
关 键 词: | 深度Q神经网络 期望值函数 离策略 策略表现 |
Off-policy Algorithm of Deep Q-Network Based on Expected Value Function |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 等数据库收录! |
|