Q(f)—过程非唯一时连续时间折扣目标MDP |
| |
引用本文: | 郭先平.Q(f)—过程非唯一时连续时间折扣目标MDP[J].湖南师范大学自然科学学报,1996,19(3):7-12. |
| |
作者姓名: | 郭先平 |
| |
摘 要: | 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设。而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性。
|
关 键 词: | 连续时间 折扣目标 Q过程 马氏决策规划 |
本文献已被 维普 等数据库收录! |
|