首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.  相似文献   

2.
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.  相似文献   

3.
针对求解非负矩阵分解的乘性更新规则存在计算复杂度高且迭代效率低等缺点,提出一种随机方差参数调整梯度的方法.将方差缩减策略和乘性更新规则相结合,通过引入一个调整随机梯度估计量的参数校正梯度下降方向使其偏差与方差达到平衡,从而能快速、准确地逼近最优解.在真实数据集上进行仿真实验,结果验证了该算法的可行性和有效性.  相似文献   

4.
针对犯罪分布预测准确率低,历史犯罪数据缺失严重的问题,提出了基于历史犯罪数据,融合所研究地区的社会环境因素的转移概率矩阵自学习的犯罪分布预测算法——TWcS.将包括距离信息、面积信息、人口信息在内的社会环境因素作为权重值引入到梯度下降策略中,利用梯度下降实现TWcS算法的转移概率矩阵自学习.实验结果证明,TWcS算法的性能明显优于包括当前最优基线算法(TPML-WMA)在内的其他预测算法(如LR、AR、Lasso回归算法、贝叶斯算法、决策树算法等),TWcS算法的MAE值是其他算法MAE平均值的33%.   相似文献   

5.
随机梯度下降(stochastic gradient descent,SGD)算法是机器学习问题中的高效求解方法之一.但是,对于非平衡数据,传统的随机梯度下降算法,在训练时多数类点被抽到的概率远大于少数类点,易导致计算不平衡;对于目标函数不可导或不易求导的问题,计算代价太大或无法进行计算;在每次迭代中利用单个样本梯度近似代替全梯度,这必然会产生方差,严重影响算法的分类性能.针对上述问题,提出了带有方差减小的加权零阶随机梯度下降算法,考虑了数据的间隔分布情况,在目标函数中引入了间隔均值项,并对多数类样例赋予了较小的权值,对少数类样例赋予较大的权值.在对优化问题的求解中,采用零阶优化的方法对梯度进行估计,并且引入了方差减小策略.在一些非平衡数据集上的实验验证了所提算法的有效性,并有效解决了上述问题.  相似文献   

6.
在研究协同神经网络梯度动力学过程的基础上,针对学习过程收敛速度缓慢的缺点,介绍了一种改进的基于梯度动力学的协同神经网络学习算法。该算法分析了非平衡注意参数对学习过程的影响,简化了初始伴随向量的选取;并引入最优化理论,将该问题归结为求解非线性最优化问题,提出了适时地用共轭梯度法代替梯度下降法的算法,加快了学习过程的收敛。通过对标准人脸图像库的图像识别实验表明该算法较之其他学习算法有较高的识别率,并能较快地收敛到极小值。  相似文献   

7.
一种在线自适应控制马氏链的强化学习算法   总被引:2,自引:2,他引:0  
讨论平均准则控制马氏链的强化学习算法。目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略,由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法,通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略。行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略。评判器用来估计这些参数以找出最优控制策略。  相似文献   

8.
结合 Josephy-Newton方法,建立了一种不含价值函数的求解非线性互补问题的全局策略.该策略基于外梯度步和Filter技术,提出一个外梯度-Filter算法.此算法中的外梯度步可以减少与最优解之间的距离,从而使该算法具有全局收敛性.在适当的条件下,该算法还具有超线性收敛性.  相似文献   

9.
对于双率采样数据的动态调节模型,利用多项式变换得到一个方程误差自回归滑动平均模型,使用估计的噪声项代替信息向量中的未知噪声,提出了辨识双率系统的广义增广随机梯度算法,以及广义增广遗忘梯度算法。仿真例子说明了提出算法的有效性。  相似文献   

10.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高.  相似文献   

11.
广义既约梯度法解非线性规划问题的灵敏度分析   总被引:1,自引:0,他引:1  
使用广义既约梯度法(GRG法)解非线性规划问题并进行了灵敏度分析。局部最优解满足二阶充分条件,问题满足非退化假设的前提下,给出带参数问题的局部最优解关于参数的连续性质。在适当的条件下建立了灵敏度信息的估计,并在后面部分中提供了使用GRG算法解非线性规划,产生灵敏度信息的计算过程。  相似文献   

12.
CAR模型在过程建模中得到了广泛应用.传统的随机信息梯度算法虽然可以辨识CAR模型,但是算法收敛速度慢、估计精度不高.为解决这一问题,提出了一种带可变遗忘因子的多误差随机梯度算法.首先用信息向量取代信息标量,提出了一种多误差随机信息梯度算法;然后,将误差信息引入遗忘因子,提出一种可变遗忘因子.数值仿真表明,所提算法能够以较快的收敛速度获得精度较高的参数估计值.  相似文献   

13.
学习自动机是增强学习理论体系中的重要组成部分,在应用数学的随机函数优化、信息安全的异常检测等理论和实际问题中发挥着重要作用.估计器算法是目前学习自动机中最为主流的一类算法,具有最高的算法性能.但是,由于估计器本身的局限性导致在学习初期估计值不准确,行为选择概率向量无法一直保持最优更新,且概率向量的更新完全依赖于固定步长,一次错误的更新需要大量额外的迭代来对其进行弥补,算法的收敛效率仍存在提升空间.针对上述问题,通过改进估计器算法的概率向量更新策略,提出一种基于双重竞争策略的学习自动机算法,并对其ε-收敛特性进行数学证明.实验结果显示,该算法提高了学习自动机的收敛效率,从而验证并确立了所提策略的有效性和算法的优越性.  相似文献   

14.
一种鲁棒回归支持向量机及其学习算法   总被引:2,自引:0,他引:2  
为了提高支持向量机的泛化能力,给出了一个鲁棒损失函数,利用它建立了鲁棒支持向量机,并利用对偶原理推导出其对偶优化问题的形式,在此基础上设计了局部梯度算法,在这种算法中每次迭代只改变两个优化变量的值。随后分析了算法的收敛性条件,给出了学习步长的选择依据,最后用一个仿真实例来说明所提出的支持向量机的学习性能,比标准支持向量机具有更好的鲁棒性。  相似文献   

15.
结合GLP投影梯度法,提出一种解一般凸规划问题的上点逼近算法在适当条件下证明了收敛性定理,此算法较之其它外点法的优点,在于其子问题的约束集合不是递增的,即:算法在每迭代解一个二次规划问题,这个二次规划问题的约束条件只依赖于最优解的当前估计,并且该算法的计算复杂性比GLP投影梯度法大大减少。  相似文献   

16.
梯度投影算法是求解非线性约束最优化问题的基本方法之一,多年来一直吸引着许多学者对其进行研究。在Hilbert空间H中,利用梯度投影算法解决有约束条件的凸集C上的凸函数f的最优问题,引入CKQ方法,与以往研究的差异是在定理中新增加了集合Kn,并证明了改进的梯度投影算法的强收敛性。所得结果将文献中的梯度投影算法推广为Ishikawa形式。  相似文献   

17.
利用信息几何中的统计流形理论和自然梯度流形学习定位方法,研究了基于接收信号强度(RSS)的无线传感器网络自定位问题.首先,通过概率密度函数构造了一个曲指数族定位模型;然后,针对给定初始状态值的未知目标节点定位问题,结合梯度下降法,提出了基于此模型的最优非线性估计方法及其改进算法.梯度下降法的良好性质和仿真结果表明,这些算法有很好的收敛效果和更高的定位精度.   相似文献   

18.
针对词向量训练过程中层序Softmax算法无法进行增量训练及海量数据训练低效的问题,提出了动态层序Softmax算法.通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练.为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率.以维基百科中文语料作为数据进行了试验,完成了训练效率和质量的分析.结果表明:相较于现有方法动态层序Softmax算法显著提高了训练效率,当增量样本大小为10 kB~1 MB时,训练增速有近30倍的提升,有效地缩短训练周期.  相似文献   

19.
根据负梯度搜索原理,推导了滑动平均噪声干扰单输入多输出系统的递阶增广随机梯度算法.为了改进提出算法的收敛速度,在算法中引入遗忘因子,得到递阶增广遗忘梯度算法.数字仿真结果表明所提出的算法估计系统参数是有效的.  相似文献   

20.
利用代价函数求梯度值,再利用梯度值进行迭代是一种最速下降法,在各种盲均衡算法中广泛使用,其收敛速度较快,收敛误差较小,但未考虑信道中随机多变的噪声对其产生的影响.该文引入随机梯度估值,在梯度向量中加入噪声成分,结合梯度估值引起的权偏差相关系数,分析其对盲均衡算法的影响.理论研究和仿真结果表明,随机梯度估值引起权值偏差,影响着算法的收敛速度和剩余误差.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号