基于动态优先级的奖励优化模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于动态优先级的奖励优化模型

作者姓名：	赵沛尧黄蔚

作者单位：	1. 苏州大学计算机科学与技术学院;2. 苏州大学江苏省计算机信息处理技术重点实验室;3. 苏州大学东吴学院

基金项目：	国家自然科学基金项目(61303108)；;江苏省高校自然科学研究重大项目(17KJA520004)；;江苏省高校省级重点实验室(苏州大学)项目(KJS1524)；;苏州市应用基础研究计划工业部分(SYG201422)；

摘要：	传统的约束马尔可夫决策过程(constrained Markov decision process, CMDP)模型用来解决多目标决策的困难，但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题，提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning, RL)算法结合，将带约束问题建模为拉格朗日公式，其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式，并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较，显示本算法得出的最优策略能够更好地满足相应约束。
关键词：	强化学习深度学习受限马尔可夫模型动态优先级机器人环境