期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇

专业分类

综合类

1篇

出版年

2007年

1篇

排序方式： 共有1条查询结果，搜索用时 62 毫秒

基于行动分值的强化学习与奖赏优化

陈启军肖云伟《同济大学学报(自然科学版)》2007,35(4):531-536

针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题，提出一种新的强化学习算法．新算法使用行动分值作为智能行为者选择动作的依据．行动分值比传统的状态值具有更高的灵活性，因此更容易针对行动分值设计更加优化的奖赏函数，提高学习的性能．以行动分值为基础，使用了指数函数和对数函数，动态确定奖赏值与折扣系数，加快行为者选择最优动作．从走迷宫的计算机仿真程序可以看出，新算法显著减少了行为者在收敛前尝试中执行的动作次数，提高了收敛速度．相似文献