首页 | 本学科首页   官方微博 | 高级检索  
     

基于相关熵诱导度量的近端策略优化算法
作者姓名:张会珍  王强
作者单位:东北石油大学电气信息工程学院
基金项目:黑龙江省自然科学基金资助项目(F2018004);
摘    要:在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAI gym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~1 100回合左右的加快,同时也具有良好的鲁棒性。

关 键 词:KL散度  近端策略优化(PPO)  相关熵诱导度量(CIM)  替代目标  深度强化学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号