基于期望值函数的离策略深度Q神经网络算法 Off-policy Algorithm of Deep Q-Network Based on Expected Value Function期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于期望值函数的离策略深度Q神经网络算法

引用本文：	刘川莉,蔡乐才,高祥,居锦武,吴昊霖.基于期望值函数的离策略深度Q神经网络算法[J].四川理工学院学报(自然科学版),2019(1):52-60.

作者姓名：	刘川莉蔡乐才高祥居锦武吴昊霖

作者单位：	四川轻化工大学自动化与信息工程学院;人工智能四川省重点实验室;宜宾学院;企业信息化与物联网测控技术四川省高校重点实验室;四川大学计算机学院

摘要：	深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。
关键词：	深度Q神经网络期望值函数离策略策略表现
Off-policy Algorithm of Deep Q-Network Based on Expected Value Function

Abstract:

Keywords:
本文献已被 CNKI 等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏