折扣马尔可夫决策规划最优策略的结构 |
| |
引用本文: | 董泽清.折扣马尔可夫决策规划最优策略的结构[J].科学通报,1984,29(16):1021-1021. |
| |
作者姓名: | 董泽清 |
| |
作者单位: | 中国科学院应用数学研究所 北京
(董泽清),中国科学院应用数学研究所 北京(刘克) |
| |
摘 要: | 本文所研究的马尔可夫决策规划:{S,(A(t),i∈S),q,r,V_s},其中状态空间S、每个状态可用的行动集A(i)(i∈S)均为可列集,转移律q是时齐的,报酬函数r是有界的,折扣目标是V_β(β∈(0,1))。其主要结果如下:
|
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《科学通报》浏览原始摘要信息 |
| 点击此处可从《科学通报》下载免费的PDF全文 |
|