期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

童亮陆际联龚建伟《北京理工大学学报》2005,25(4):328-331

在对资格迹理论研究的基础上,提出了一种延迟快速强化学习算法DFSARSA(λ)(延迟快速SARSA(λ)算法).算法的主要思想是通过对资格迹的重新定义和对即时差分TD(λ)偏差的跟踪,使强化学习中Q值在需要时进行更新,而SARSA(λ)每一步都对Q值进行更新,该方法使SARSA(λ)算法的更新计算复杂度从O(|S||A|)降到了O(|A|),提高了强化学习速度,仿真实验证明了该算法的有效性. 相似文献

2.

基于隐偏向信息学习的强化学习算法

李学勇欧阳柳波李国徽《南华大学学报(自然科学版)》2004,18(2):10-16

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. 相似文献

3.

一种状态集结因子化SARSA（λ）强化学习算法

李春贵刘永信《内蒙古大学学报(自然科学版)》2001,32(6):675-678

提出了一种自适应状态集结因子化SARSA（λ）强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态空间搜索与计算的复杂度,有利于求解大状态空间的MDPs问题,而且,本算法不需要有关状态特征的先验知识,有很好的通用性。相似文献

4.

欠驱动机器人强化学习算法仿真及结果分析

臧希喆王晓林吴晓光刘鑫宇《江南大学学报(自然科学版)》2012,11(2):132-136

针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性. 相似文献

5.

基于多步回溯Q(λ)学习算法的多目标最优潮流计算 总被引：2，自引：1，他引：1

余涛胡细兵刘靖《华南理工大学学报(自然科学版)》2010,38(10)

为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 相似文献

6.

一种改进的强化学习方法在RoboCup中应用研究

程显毅朱倩《广西师范大学学报(自然科学版)》2010,28(3)

基于CMAC(cerebella model articulation controller)提出一种动态强化学习方法(dynamic cerebellamodel articulation controller-advantage learning,DCMAC-AL)。该方法利用advantage(λ)learning计算状态-动作函数,强化不同动作的值函数差异,以避免动作抖动;然后在CMAC函数拟合基础上,利用Bellman误差动态添加特征值,提高CMAC函数拟合的自适应性。同时,在RoboCup仿真平台上对多智能体防守任务(takeaway)进行建模,利用新提出的算法进行学习实验。实验结果表明,DCMAC-AL比采用CMAC的advantage(λ)learning方法有更好的学习效果。相似文献

7.

集成规划的行动-自适应评价强化学习算法

李春贵刘永信王萌《内蒙古大学学报(自然科学版)》2008,39(3):346-350

研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果. 相似文献

8.

基于RBF函数状态离散化的激励学习

田建军唐中勇《太原师范学院学报(自然科学版)》2006,5(3):50-53

介绍了激励学习和两类学习算法：Q学习和SARSA学习，提出一类基于RBF函数的特征状态离散化方法，并对该方法进行了初步的实验比较．相似文献

9.

车辆路径规划问题的逆向优化方法

陈禹伊陈璐《上海交通大学学报》2022,(1):81-88

在电商物流的"最后一公里"配送中,经验丰富的驾驶员(专家)并不总是基于最短路径成本矩阵进行路径规划.对此,提出一种逆向优化方法,通过学习专家的过往路径决策,得到能够代表专家经验的成本矩阵,并应用于路径规划模型求解,使得专家经验能够融入决策算法中.利用机器学习中的乘性权重更新算法实现对专家经验的学习.随机算例和电商实际算... 相似文献

10.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

11.

一种自适应概率规划规则抽取算法 总被引：3，自引：0，他引：3

高阳陆鑫李宁陈世福《南京大学学报(自然科学版)》2003,39(2):145-152

在已知状态迁移条件下，利用传统概率规划技术能够获得确定的规划规则，而强化学习技术能够在未知环境条件下，利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态－动作对值函数基础上，通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除，并得到子规划剪枝后的状态－动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识，从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明，这种自适应概率规划规则抽取算法是有效的。相似文献

12.

基于神经网络的函数逼近问题

李凯徐永春孙翠先《河北大学学报(自然科学版)》2001,21(3):215-217

给出了函数逼近问题,提出了一种新的神经网络模型,结合函数逼近问题及该神经网络模型给出了一种学习算法,并利用该算法对函数逼近进行了仿真.说明了该算法的实用性. 相似文献

13.

基于优化方法的GM(1,1,λ)模型

王敏会曾盛《北华大学学报(自然科学版)》2012,13(5):524-527

对GM(1,1)模型背景值进行分析,给出了GM(1,1,λ)模型,利用MATLAB优化函数进行单值λ优化和多值λ优化得到λ的最佳取值,最终求解出该模型. 相似文献

14.

基于CM-Q学习的自主移动机器人局部路径规划

张宁李彩虹郭娜王迪《山东理工大学学报：自然科学版》2020,34(4)

针对多障碍物未知环境下,自主移动机器人局部路径规划过程中出现的路径冗余和避障问题,提出了基于坐标匹配的Q学习算法(Coordinate Matching-Q learning算法,CM-Q算法)。首先建立自主移动机器人栅格地图运行环境;其次以Q学习算法探索和学习最佳状态-动作对,并利用坐标匹配的CM算法进行避障;最后在未知障碍物环境中进行路径规划,对所提出的算法进行验证。实验结果表明,运用该方法,自主移动机器人能在未知的简单和复杂障碍物环境下规划出一条最优或次优路径,完成避障和路径规划任务。相似文献

15.

一种基于特征互补的新型长期跟踪算法

夏亮张亚魏念巍《湖南城市学院学报(自然科学版)》2021,30(2):50-54

针对特征互补学习跟踪算法(Staple)在长期目标跟踪时出现目标丢失的问题,设计了一种基于特征匹配的重检测算法.该算法通过相关滤波模型和颜色特征模型的互补学习所得到的最大响应值来判断目标是否丢失,并融合基于网格运动统计的特征匹配算法(GMS)构建重检测机制,对目标进行重定位,从而保持稳定地长期跟踪.实验结果显示:该算法... 相似文献

16.

改进的DDPG算法在机器人路径规划中的应用

张宁葛斌《佳木斯大学学报》2021,39(5):119-122

深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性. 相似文献

17.

基于模糊竞争学习的模糊模型一体化辨识

王宏伟顾宏《大连理工大学学报》2007,47(2):282-286

提出了一种利用MGS(modified Gram-Schmidt)算法建立非线性系统模型的建模方法,并给出了基于MGS算法的模型结构和参数辨识的一体化方法,即利用MGS正交变换对通过模糊竞争学习的聚类结果进行变换,确定对模型贡献大的规则,删除对模型贡献小的规则,同时对模型中的参数进行估计,实现模糊模型结构和参数的优化.仿真结果表明,提出的方法能够对非线性系统进行模糊建模. 相似文献

18.

分数阶线性系统初值学习的PDα型迭代学习控制

窦建君张克军刘万利孙天凯《安徽大学学报(自然科学版)》2021,45(4):27-34

针对分数阶线性时不变系统的随机初值问题,提出了基于初值学习的PDα型分数阶迭代学习控制算法,利用λ-范数,对控制算法的收敛条件进行了严格证明,并利用仿真实验进行验证.理论分析和仿真实验表明,系统初值不论如何取值,在该算法作用下,随着迭代次数的增加,都能实现系统输出对期望输出的精确跟踪.相比传统的PDα型控制算法,该算法解决了传统控制算法要求系统初值与期望初值相同的限制,消除了随机初值对系统的影响. 相似文献

19.

公交线路选择的优化设计

冯小辉张威梅伟《达县师范高等专科学校学报》2008,18(2):122-124

讨论了人们乘坐公交车如何选择总行程时间最短、费用花费最少的最优线路.利用最短路算法Dijkstra方法引入0-1变量,引入了乘客对所需时间和费用的偏好系数λ1,λ2(λ1 λ2=1,λ1,λ2≥0),从而建立一个公交线路选择的多目标规划模型. 相似文献

20.

基于Dignet无监督学习聚类算法的智能火灾探测

李权威宛田宾秦俊廖光煊《中国科学技术大学学报》2009,39(7)

介绍了一种基于Dignet ANN无监督学习聚类算法和自适应模糊控制算法的智能火灾探测算法模型.详细阐述了算法模型的思想和实现,给出了环境模式阈值自适应的方法和简单的多类型火灾探测器探测数据融合的方法,较好地解决了环境阈值的自适应问题.在实验室条件下利用欧洲标准火对算法进行了检测,结果表明该智能算法可以有效地对火灾进行探测. 相似文献