基于近端策略优化的作战实体博弈对抗算法 |
| |
作者姓名: | 张振 黄炎焱 张永亮 陈天德 |
| |
作者单位: | 南京理工大学 自动化学院,江苏 南京210094;陆军工程大学 指挥控制工程学院,江苏 南京210007 |
| |
基金项目: | 国家自然科学基金;装备预研项目 |
| |
摘 要: | 针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果.使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimiz...
|
关 键 词: | 兵棋推演 深度强化学习 监督学习 近端策略优化 稀疏奖励 |
本文献已被 CNKI 万方数据 等数据库收录! |
|