无界报酬折扣半马氏决策模型矩最优策略的结构 The Structure of A Moment Optimal Policy in Discounted Semi-Markov Decision Model with Unbounded Rewards期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

无界报酬折扣半马氏决策模型矩最优策略的结构

引用本文：	伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报(自然科学版),1990,12(4):299-306.

作者姓名：	伍从斌

作者单位：	云南大学计算机科学系

摘要：	本文研究具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型(DSMDM)矩最优策略的结构.证明了:若策略π,σ是(K)矩最优的.则π~nσ及π的任一自组合策略也是(K)矩最优的,且存在与π等价的(K)矩最优策略π~(?),使~nπ~(*hn)为(K)矩最优的;存在(K)矩最优策略的充要条件是(K)矩最优行动集A_K(i)非空;策略π为(K)矩最优当且仅当π_n(A_K(i)\|H_n,i)=1,α.e.P_(πn);π为(K)矩最优策略的又一充要条件是它可分解为若干个确定性(K)矩最优策略的一个凸组合.这样,该模型矩最优策略的结构就得到了较完满的解决.
关键词：	折扣模型无界报酬矩最优策略
The Structure of A Moment Optimal Policy in Discounted Semi-Markov Decision Model with Unbounded Rewards

Wu Congbin.The Structure of A Moment Optimal Policy in Discounted Semi-Markov Decision Model with Unbounded Rewards[J].Journal of Yunnan University(Natural Sciences),1990,12(4):299-306.

Authors:	Wu Congbin

Abstract:

Keywords:	discounted model unbounded rewards moments optimal policy
本文献已被 CNKI 维普等数据库收录！