基于相关熵诱导度量的近端策略优化算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于相关熵诱导度量的近端策略优化算法

作者姓名：	张会珍王强

作者单位：	东北石油大学电气信息工程学院

基金项目：	黑龙江省自然科学基金资助项目(F2018004)；

摘要：	在深度强化学习算法中，近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异，但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率，为此，提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异，能准确地进行策略更新，进而改善不对称性带来的影响。通过OpenAI gym实验测试表明，相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励，收敛速度在不同环境均有500～1 100回合左右的加快，同时也具有良好的鲁棒性。
关键词：	KL散度近端策略优化(PPO) 相关熵诱导度量(CIM) 替代目标深度强化学习