排序方式: 共有15条查询结果,搜索用时 109 毫秒
1.
2.
3.
4.
郭先平 《湖南师范大学自然科学学报》1996,19(1):21-24
考虑的是任意状态空间,任意行动空间MDP平均模型的四个平均准则,在O.H.Lerma的遍历性条件下,利用稳定性定理和可测选择理论简明地证明了存在平稳策略关于此模型的四个平均准则同时是最优的,从而扩充并加强了O.H.Lerma(1989)的主要结果。 相似文献
5.
6.
郭先平 《湖南师范大学自然科学学报》1996,(3)
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性. 相似文献
7.
8.
讨论了赔付函数可能既无上界又无下界的离散时间可数状态非零和随机对策的折扣模型。在零和随机对策中常用的“漂移”和“连续-紧”性条件下, 用Fan's不动点定理证明了Nash平衡点的存在性。 相似文献
9.
本文考虑的是状态空间和行动空间均为一般集的非平稳MDP平均模型εn-最优策略的结构和性质,通过相应的一般决策模型的建立及εn-最优行动集Aεn的引入,讨论了εn-最优策略的凸组合,凸分解等若干性质。 相似文献
10.
郭先平 《湖南师范大学自然科学学报》1996,19(3):7-12
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设。而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性。 相似文献