首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 78 毫秒
1.
传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法.  相似文献   

2.
当前基于深度强化学习算法实现网络路由优化主要面临算法的难以收敛和可扩展性差两个问题。该文在深度强化学习PDDPG算法的基础上,提出了动态权重策略,设置了共享经验回放池,融合共享参数更新了公式,并搭建不同规模的网络实验环境,将深度强化学习优化算法PS-PDDPG应用到网络路由优化中。结果显示,PS-PDDPG算法在不同网络负载均衡环境下,它的网络延时较短且稳定,说明PS-PDDGP算法的收敛速度和可扩展性得到了提升。  相似文献   

3.
多智能体系统中具有先验知识的Q学习算法   总被引:12,自引:0,他引:12  
为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。  相似文献   

4.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

5.
针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。  相似文献   

6.
联邦学习是一种可用于解决数据孤岛问题的分布式机器学习框架。在联邦学习过程中,客户端选择方案会对收敛速度和全局模型的精度产生重要影响。然而,现有的多数方案通常忽略客户端之间的资源异构和随时间不断变化的信道条件,使联邦学习算法最终性能较低。针对该问题,提出了一种基于Lyapunov优化的联邦学习客户端选择算法(Federated learning client selection based on Lyapunov optimization, FedLcs)。算法设计了一种基于客户端信道条件、资源状态和对全局模型的贡献度的选择权重方法,并将客户端选择过程建模为一个Lyapunov优化问题,在不延长运行时间的同时,优化联邦学习全局模型精度。仿真实验表明,与其他2种客户端选择算法相比,所提算法能够适应不断变化的网络环境,显著提高模型准确率,加快收敛速度并使收敛过程更稳定。  相似文献   

7.
基于先验知识的强化学习系统   总被引:2,自引:0,他引:2  
针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知,由此造成该算法从没有任何基础开始搜索最优策略,搜索范围大的问题,提出将强化学习系统建立在先验知识的基础上,既有效利用了前人的工作成果,又加快了算法的收敛速度.通过解决电梯群控问题验证了所提出系统的合理性和有效性.  相似文献   

8.
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.  相似文献   

9.
采用双层强化学习的干扰决策算法   总被引:2,自引:0,他引:2  
为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。  相似文献   

10.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号