首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于期望值函数的离策略深度Q神经网络算法
引用本文:刘川莉,蔡乐才,高祥,居锦武,吴昊霖.基于期望值函数的离策略深度Q神经网络算法[J].四川理工学院学报(自然科学版),2019(1):52-60.
作者姓名:刘川莉  蔡乐才  高祥  居锦武  吴昊霖
作者单位:四川轻化工大学自动化与信息工程学院;人工智能四川省重点实验室;宜宾学院;企业信息化与物联网测控技术四川省高校重点实验室;四川大学计算机学院
摘    要:深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。

关 键 词:深度Q神经网络  期望值函数  离策略  策略表现

Off-policy Algorithm of Deep Q-Network Based on Expected Value Function
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号