首页 | 本学科首页   官方微博 | 高级检索  
     

Q(f)—过程非唯一时连续时间折扣目标MDP
作者姓名:郭先平
摘    要:考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设。而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性。

关 键 词:连续时间 折扣目标 Q过程 马氏决策规划
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号