首页 | 本学科首页   官方微博 | 高级检索  
     检索      

折扣马尔可夫决策规划最优策略的结构
引用本文:董泽清.折扣马尔可夫决策规划最优策略的结构[J].科学通报,1984,29(16):1021-1021.
作者姓名:董泽清
作者单位:中国科学院应用数学研究所 北京 (董泽清),中国科学院应用数学研究所 北京(刘克)
摘    要:本文所研究的马尔可夫决策规划:{S,(A(t),i∈S),q,r,V_s},其中状态空间S、每个状态可用的行动集A(i)(i∈S)均为可列集,转移律q是时齐的,报酬函数r是有界的,折扣目标是V_β(β∈(0,1))。其主要结果如下:

本文献已被 CNKI 等数据库收录!
点击此处可从《科学通报》浏览原始摘要信息
点击此处可从《科学通报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号