首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法.并给出了其一致收敛性证明.  相似文献   

2.
一种在线自适应控制马氏链的强化学习算法   总被引:2,自引:2,他引:0  
讨论平均准则控制马氏链的强化学习算法。目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略,由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法,通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略。行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略。评判器用来估计这些参数以找出最优控制策略。  相似文献   

3.
针对时间序列预测中非线性、噪声高等特点,提出时间序列向前多步混合智能预测模型.首先,在模型训练过程中,提出一种将强化学习与隐马尔可夫模型相结合的新方法,强化学习运用TD(λ)方法,采用历史观测数据作为报酬回报,强调远近期历史数据的不同影响程度并用以迭代增强历史观测数据在模型中的作用;进一步,在向前多步预测过程中,提出一种以强化学习为桥梁、将神经网络与隐马尔可夫模型相结合的方法,用以充分发挥神经网络数据拟合优势和隐马尔可夫模型减小系统随机误差方面的优势.利用稀土期货交易数据进行预测实验,结果表明:智能预测模型显著降低了预测的平均绝对误差、百分比绝对平均误差、均方根误差,提高了预测的准确性和效果.  相似文献   

4.
介绍了强化学习模型,分别提出了7个主要的强化学习算法并讨论了它们之间的区别和联系,最后指出了强化学习算法中有待解决的问题.  相似文献   

5.
一种集成规划的SARSA(λ)强化学习算法   总被引:2,自引:0,他引:2  
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效.  相似文献   

6.
介绍了强化学习模型,分别提出了7个主要的强化学习算法并讨论了它们之间的区别和联系,最后指出了强化学习算法中有待解决的问题.  相似文献   

7.
为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-Stackelberg分层博弈(NSHG)模型.然后,提出2种多Agent强化学习算法,即基于NSHG的Q学习(NSHG-QL)算法和基于NSHG的深度Q网络(NSHG-DQN)算法.在实验中,使用NSHG-QL和NSHG-DQN算法在SUMO仿真软件搭建的路网环境中对信号灯进行控制,并与基础博弈模型求解算法进行比较.实验结果表明:NSHG-QL算法和NSHG-DQN算法减少了交叉口内车辆的平均旅行时间和平均时间损失,提高了平均速度;NSHG模型在满足重要交叉口间上层博弈的基础上协调次要交叉口,做出最优策略选择,而且基于分层博弈模型的多Agent强化学习算法能明显提高学习性能和收敛性.  相似文献   

8.
收敛速度是衡量机器学习算法的一个重要指标,在强化学习中,如果算法不充分利用从每次学习中获取的经验知识,算法的收敛速度则比较缓慢;为了提高强化学习的收敛速度,文章将环境模型的学习引入到强化学习过程中,首先学习环境模型,然后根据所得的新模型重新指导强化学习过程,在Linux下的RoboCup仿真平台上对该算法进行了验证,实验结果证明了其有效性.  相似文献   

9.
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,...  相似文献   

10.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.  相似文献   

11.
针对使用深度强化学习进行航空器智能引导研究中存在的飞行轨迹质量差、训练效率低等问题,对应用于机动决策生成的奖励重塑方法进行了研究。首先,构建了航空器引导机动决策生成的深度强化学习模型;其次,从指令连续性和相对姿态两个角度设计了奖励重塑函数,并证明了使用重塑函数前后的策略一致性;最后,在不同类型目的地场景中进行了仿真实验。仿真结果表明,奖励重塑方法对航空器飞行轨迹质量和智能体训练效率有明显的提升。使用本方法快速训练的智能体,可以准确、高效地生成机动决策,引导航空器完成任务。  相似文献   

12.
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度.  相似文献   

13.
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双 延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中,通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网 络的延迟更新步长。实验结果表明,与原始TD3 算法在2 000 步获得较高的奖励值相比,DD-TD3 方法可在约 1 000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。  相似文献   

14.
综合考虑再励学习的两个重要子问题 :连续空间及语言评价问题 ,提出了一种新的学习方法 ,即面向语言评价的 Takagi-Sugeno(T-S)模糊再励学习。该学习智能体构建在 Q-学习方法和 Takagi-Sugeno模糊推理系统的基础上 ,适于处理连续域的复杂学习任务 ,亦可用于设计 Takagi-Sugeno模糊逻辑控制器。以二级倒立摆控制系统为例 ,仿真研究验证了学习算法的有效性  相似文献   

15.
为解决虚拟机部署过程中对虚拟机性能、资源利用率、负载均衡值等多个目标的优化问题,提出一种基于强化学习的改进部署算法.首先,用多个目标组成的多维奖励代替原来的单一奖励;然后将资源状态、优化目标及目标占比输入所提的预测器中来预测每个部署方案对应的多维奖励值,并通过反馈结果调节不同优化目标的占比以达到动态多目标优化的目的;最后,为了减少部署时间,用改进的均值聚类算法对服务器资源进行聚类加快部署.通过CloudsimPy平台对算法进行验证,结果表明本文算法可以在相同资源下完成更多的虚拟机请求且具有较高的部署成功率和较低的时延消耗.  相似文献   

16.
为了实现水下机器人在跟踪复杂轨迹时具有出较高的精度和稳定性,提出了利用深度强化学习实现水下机器人最优轨迹控制的方法:首先,建立基于2个深度神经网络(Actor网络和Critic网络)的水下机器人控制模型,其中Actor网络用来选择动作,Critic网络用来评估Actor网络的训练结果;其次,构造合适的奖励信号使得深度强化学习算法适用于水下机器人的动力学模型;最后,提出了基于奖励信号标准差的网络训练成功评判条件,使得水下机器人在确保精度的同时保证稳定性. 仿真实验结果表明:在解决一定精度内的水下机器人复杂轨迹跟踪问题时,该算法与传统PID控制算法相比具有更优的性能.  相似文献   

17.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

18.
提出一种结合深度特征与美学特征的图像增强方法.首先,结合多种图像特征重构智能体评估网络,该网络通过拼接图像语义特征、图像色彩特征及历史动作信息输出当前策略.其次,感知奖励模型通过预训练分类模型激活层网络提取深层特征,使用余弦距离获得图像间的深度感知距离;利用美学模型获得图像间的概率距离.最后,结合两方面的距离表示并将其用于奖励模型构造中.在MIT-Adobe FiveK数据集上的实验结果表明,本色彩增强方法在结构相似度和平均均方误差上优于其他基线算法,模型场景适用性强.生成图像在保留更多的细节信息的同时,可以有效增强图像色彩.  相似文献   

19.
针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号