排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
2.
基于平均报酬模型的强化学习算法研究 总被引:1,自引:0,他引:1
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 相似文献
1