首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 234 毫秒
1.
基于先验知识的强化学习系统   总被引:2,自引:0,他引:2  
针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知,由此造成该算法从没有任何基础开始搜索最优策略,搜索范围大的问题,提出将强化学习系统建立在先验知识的基础上,既有效利用了前人的工作成果,又加快了算法的收敛速度.通过解决电梯群控问题验证了所提出系统的合理性和有效性.  相似文献   

2.
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度.  相似文献   

3.
为满足战场环境下无线自组网络通信拒止的干扰需求,提出了一种未知拓扑无线自组网络多节点干扰决策算法(CUCB)。首先,根据战场无线自组网络结构特点构建泊松点过程(PPP)网络模型,并利用其模拟网络中数据流传输过程;其次,随机对PPP网络中多个节点进行干扰,通过监听确认帧信息或侦察节点活跃度判断阻断网络流数,根据干扰结果构造节点相关性矩阵;最后,利用强化学习与环境实时交互的特点,在干扰过程中不断更新节点相关性矩阵并将其用于后续节点选择。所提算法无需获悉目标网络拓扑结构、节点重要性等先验信息,仅以阻断网络流数目或节点活跃性作为奖赏标准,适用网络类型更为广泛。仿真结果表明,对不同参数下的无线自组网络进行干扰,所提算法在鲁棒性方面优于现有算法,在累积阻断网络流数量方面比联合利用探索算法提高了27.1%。  相似文献   

4.
为解决已有基于深度强化学习的边缘计算任务调度面临的动作空间探索度固定不变、样本效率低、内存需求量大、稳定性差等问题,更好地在计算资源相对有限的边缘计算系统中进行有效的任务调度,在改进深度强化学习模型D3DQN(Dueling Double DQN)的基础上,提出了自适应边缘计算任务调度方法D3DQN-CAA.在任务卸载决策时,将任务与处理器的对应关系看作一个多维背包问题,根据当前调度任务与计算节点的状态信息,为任务选择与其匹配度最高的计算节点进行任务处理;为提高评估网络的参数更新效率,降低过估计的影响,提出一种综合性Q值计算方法;为进一步加快神经网络的收敛速度,提出了一种自适应动作空间动态探索度调整策略;为减少系统所需的存储资源,提高样本效率,提出一种自适应轻量优先级回放机制.实验结果表明,和多种基准算法相比,D3DQN-CAA方法能够有效地降低深度强化学习网络的训练步数,能充分利用边缘计算资源提升任务处理的实时性,降低系统能耗.  相似文献   

5.
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.  相似文献   

6.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

7.
提出了一种自适应状态集结因子化SARSA(λ)强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态空间搜索与计算的复杂度,有利于求解大状态空间的MDPs问题,而且,本算法不需要有关状态特征的先验知识,有很好的通用性。  相似文献   

8.
多智能体系统中具有先验知识的Q学习算法   总被引:12,自引:0,他引:12  
为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。  相似文献   

9.
为了解决模块化数据中心节能问题,该文提出了基于在线机器学习算法的空调控制策略。通过构建双网络结构,将相乘的动作空间转化为相加的动作空间,极大的缩小了动作空间的大小,加快了模型的收敛速度。另外,结合在线机器学习算法中的监督学习和强化学习算法生成不同的模型,通过对比实验结果,选择效果最稳定的监督学习作为最终的实施方案。实验结果表明,通过对比算法在两种不同的模拟器环境以及真实测试环境中的运行结果,基于监督学习的在线机器学习算法可以在保证设备安全的前提下将模块化数据中心的电能使用效率降低到1.26以下。和Li等人使用的深度确定性策略梯度方法相比,在冷通道温度降低了17%的情况下,PUE降低了4%~6%。  相似文献   

10.
传统的约束马尔可夫决策过程(constrained Markov decision process, CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning, RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号