离线数据强化学习:途径与进展 |
| |
引用本文: | 俞扬.离线数据强化学习:途径与进展[J].中国基础科学,2022(3):35-39+46. |
| |
作者姓名: | 俞扬 |
| |
作者单位: | 南京大学软件新技术国家重点实验室 |
| |
摘 要: | 经过几十年的发展,强化学习技术在游戏场景以及围棋等复杂大型博弈决策中取得了突破性进展。虽然期待强化学习技术也能在现实任务中帮助求解最优决策,但现实任务的开放性与游戏世界的封闭性有本质区别,跨越游戏和现实世界之间边界的关键技术仍然缺失。从监督学习技术的成功应用中可以看出,基于历史数据的学习范式已经被广泛接受。因此,从离线数据(历史数据)中学习最优决策是在现实世界应用强化学习的最有潜力的技术途径之一。本文总结了离线强化学习的可能途径,并介绍了相关进展。希望通过对离线强化学习框架的梳理,推动更多该领域的研究工作,促进利用强化学习技术解决更多生产生活中的决策难题。
|
关 键 词: | 强化学习 离线强化学习 环境模型学习 |
|
|