期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李春贵刘永信王萌《内蒙古大学学报(自然科学版)》2008,39(3):346-350

研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果. 相似文献

2.

多Agent系统的Q值强化学习算法

尚艳玲肖文雅《河南师范大学学报(自然科学版)》2013,41(2):158-160

对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性. 相似文献

3.

LCS在多步学习问题中的规则集压缩算法

臧兆祥李德华王俊英《华中科技大学学报(自然科学版)》2014,(2):101-105

为了解决学习分类元系统(LCSs)应用于多步学习问题时会生成规模庞大、冗余的规则集问题,提出了一种规则集压缩算法.该算法的处理过程包含三个阶段:a.通过特殊的遗传进化操作,在删除一些较弱分类元的同时,增加规则集里泛化能力较强、适应值较高的分类元的个体数目;b.进行冲突消解,消除规则集里相互重叠、相互冲突的分类元;c.对产生的无重叠无冲突的规则集,进行大幅度压缩处理,得出最终的精简规则集.实验结果表明:所提算法能够在几乎不降低系统整体性能的前提下,将规则集极大地约简和压缩,从而产生足够小的规则集,使LCSs的知识表示的冗余度减少,凸显了规则集的易解释、易操作等特性;提高了LCSs在多步学习问题中的应用效果,拓展了其应用范围. 相似文献

4.

多agent协同强化学习算法SE-MACOL及其应用

王长缨陈文伟《广西师范大学学报(自然科学版)》2006,24(4):167-170

针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。相似文献

5.

基于行动分值的强化学习与奖赏优化

陈启军肖云伟《同济大学学报(自然科学版)》2007,35(4):531-536

针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题，提出一种新的强化学习算法．新算法使用行动分值作为智能行为者选择动作的依据．行动分值比传统的状态值具有更高的灵活性，因此更容易针对行动分值设计更加优化的奖赏函数，提高学习的性能．以行动分值为基础，使用了指数函数和对数函数，动态确定奖赏值与折扣系数，加快行为者选择最优动作．从走迷宫的计算机仿真程序可以看出，新算法显著减少了行为者在收敛前尝试中执行的动作次数，提高了收敛速度．相似文献

6.

基于贝叶斯方法的多Agent强化学习

郑顾平曹锦纲《河北理工学院学报》2005,27(4):65-68

在多agentss强化学习（MARL）的研究中，很多都是强调MARL算法收敛于期望平衡解。然而，对于标准的强化学习，该过程需要对策略空间的充分探测，而且探测还经常受到惩罚或错失了良机。在多agents系统中，由于agents之间的协作使该问题更加复杂。为此，提出了在MARL用贝叶斯模型来进行最优探测，该模型与标准的RL模型不同，它将对agent的动作是如何影响其它agents的行为进行推理。同时，还给出了如何对最优贝叶斯探测进行处理以获得理想的结果，并通过与其它算法的比较来说明用贝叶斯方法的可行性. 相似文献

7.

一种基于团队马尔可夫博弈的多agent协同强化学习算法

王长缨陈文伟姚莉《复旦学报(自然科学版)》2004,43(5):842-844

研究多agent系统的学习行为对于智能系统的适应性是至关重要的．针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法．协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略．实验对该算法进行了验证,结果表明该算法是有效的．相似文献

8.

基于贝叶斯方法的多Agent强化学习

郑顾平曹锦纲《河北理工大学学报(自然科学版)》2005,27(4)

在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解.然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机.在多agents系统中,由于agents之间的协作使该问题更加复杂.为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理.同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性. 相似文献

9.

复杂环境中的多智能体强化学习 总被引：3，自引：0，他引：3

罗青李智军吕恬生《上海交通大学学报》2002,36(3):302-305

提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 . 相似文献

10.

基于多步回溯Q(λ)学习算法的多目标最优潮流计算 总被引：1，自引：1，他引：1

余涛胡细兵刘靖《华南理工大学学报(自然科学版)》2010,38(10)

为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 相似文献

11.

基于替代传导径迹的多智能体增强式学习

杨玉君程君实陈佳品《上海交通大学学报》2003,37(8):1271-1274

提出一种多智能体增强式学习方法，每个智能体在学习过程中将其他智能体和环境区分开来，并且通过维持其他智能体的替代传导径迹来预测它们的行为，从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构，适用条件宽松。仿真结果证明了所提出学习算法的有效性，而且相对于集中式Q学习效率有很大的提高。相似文献

12.

结合加强学习的群控分区算法

李伟毕晓亮叶庆泰《上海交通大学学报》2005,(Z1)

运用加强学习算法解决电梯群控问题往往受限于算法收敛速度慢,很难扩展至具有更高楼层、更多电梯的群控系统.分割状态空间为几个区域,建立具有分割功能的加强学习系统是必要的.所提出的系统结构及其底层工作原理具有普遍意义,可用于解决大状态空间上的最优控制问题,开发了基于群控分区算法的分割模块,运行结果表明了此系统的优势. 相似文献

13.

一种基于性能势的无折扣强化学习算法 总被引：1，自引：1，他引：0

周如益高阳《广西师范大学学报(自然科学版)》2006,24(4):58-61

传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。相似文献

14.

一种集成规划的SARSA(λ)强化学习算法 总被引：2，自引：0，他引：2

李春贵吴沧浦刘永信《北京理工大学学报》2002,22(3):325-327

提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效. 相似文献

15.

基于强化学习的三维游戏控制算法

孟琭沈凝祁殷俏张昊园《东北大学学报(自然科学版)》2021,42(4):478-483

基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果. 相似文献

16.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

17.

典型匝道控制场景下深度强化学习决策机理解析

刘冰唐钰暨育雄沈煜杜豫川《同济大学学报(自然科学版)》2024,52(6):928-934

以典型匝道控制场景为研究对象,利用状态值函数、显著图及输入扰动,理解深度强化学习模型在交通控制中的决策机理。利用状态值函数评判模型是否能够认识到交通状态的变化,通过显著图分析特定环境状态下模型感知到的环境状态特征和决策动作规律,应用输入扰动分析扰动后匝道控制动作匹配率和控制效果并鉴别关键区域。结果表明,基于深度强化学习的匝道控制模型能够准确评判交通状态的优劣,感知到交通状态的关键特征,并做出合理的决策动作。相似文献

18.

欠驱动机器人强化学习算法仿真及结果分析

臧希喆王晓林吴晓光刘鑫宇《江南大学学报(自然科学版)》2012,11(2):132-136

针对纯被动机器人对环境变化敏感,抗干扰能力差等问题,提出了一种基于Sarsa(λ)强化学习的底层PD控制器参数优化算法.在MatODE环境下建立双足有膝关节机器人模型并进行控制器设计.通过与传统控制器仿真结果的对比分析,得出该算法可使模型获得更加稳定的行走步态,同时提高了系统抵抗斜坡扰动的能力,增强机器人的行走鲁棒性. 相似文献