期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨玉君程君实陈佳品《上海交通大学学报》2003,37(8):1271-1274

提出一种多智能体增强式学习方法，每个智能体在学习过程中将其他智能体和环境区分开来，并且通过维持其他智能体的替代传导径迹来预测它们的行为，从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构，适用条件宽松。仿真结果证明了所提出学习算法的有效性，而且相对于集中式Q学习效率有很大的提高。相似文献

2.

基于Q学习算法的发电公司决策新模型 总被引：2，自引：0，他引：2

宋依群吴炯《上海交通大学学报》2006,40(4):568-571

提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 相似文献

3.

基于改进SNN-HRL的智能体路径规划算法

赵钊原培新唐俊文陈锦林《东北大学学报(自然科学版)》2023,(11):1548-1555

针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地探索未知环境,为后续的训练过程提供足够的环境状态信息.在学习轨迹层,将探索轨迹层的训练结果作为“先验知识”用于该层训练,提高训练效率.在路径规划层,利用智能体之前获得的skill来完成路径规划任务.通过仿真对比MES-HRL与SNN-HRL算法在不同环境下的性能表现,仿真结果显示,MES-HRL算法解决了传统算法的探索问题,具有更出色的路径规划能力. 相似文献

4.

多智能体系统中具有先验知识的Q学习算法 总被引：12，自引：0，他引：12

杜春侠高云张文《清华大学学报(自然科学版)》2005,45(7):981-984

为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。相似文献

5.

基于深度Q学习的无线传感器网络目标覆盖问题算法

高思华顾晗贺怀清周钢《吉林大学学报(理学版)》2023,(6):1432-1440

针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根据网络环境选择被激活的传感器节点作为离散动作;其次,奖励函数从激活节点的覆盖能力和自身剩余能量考虑,评价智能体选择动作的优劣.仿真实验结果表明,该算法在不同规模的网络环境下均有效,网络生命周期均优于3种贪婪算法、最大寿命覆盖率算法和自适应学习自动机算法. 相似文献

6.

改进的Q学习算法在轨迹规划中的应用

赵辉刘雅喆《吉林大学学报(信息科学版)》2016,34(5):697-702

为解决 Q 学习算法易陷入局部最优解问题, 改进了传统贪婪策略, 提出了一种分段渐近搜索策略。该策略通过动态调整策略参数, 使 Q 学习算法在学习过程中实现探索鄄学习鄄利用 3 个阶段的渐近跳转。同时将该搜索策略应用于 Q 学习算法中, 使改进的 Q 学习算法能更快速地逼近全局最优解。将改进算法应用于机械臂轨迹规划中, 其仿真结果表明, 该算法能稳定地引导机械臂沿最优轨迹快速到达目标位置。相似文献

7.

基于自学习可见图的机器人路径规划

崔玉平于秋则田金文刘永才《华中科技大学学报(自然科学版)》2004,(Z1)

针对未知环境下的机器人路径规划问题 ,提出了一种基于自学习可见图与局部最优的路径规划算法 .在这种算法中 ,采用自学习可见图来表示环境 ,并在路径规划的过程中逐步建立自学习可见图 .在避障上设计一个局部最优算法并提出了一种局部路径规划算法 .实验表明 :该方法规划速度快 ,并且能规划出局部最优的路径 ,满足未知环境下机器人路径规划的要求 . 相似文献

8.

认知无线网络中基于随机博弈框架的频率分配

刘鑫阚兴一王三强《辽宁工程技术大学学报(自然科学版)》2011,30(5):778-783

为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q函数和回报值,因为智能体的决策过程需要考虑其他用户的决策。理论证明了MAQ学习算法的收敛性。仿真结果表明,MAQ算法的吞吐量性能接近中心式的学习算法,但是MAQ只需要较少的信息交互。相似文献

9.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

10.

分布式HDP领导-跟随者系统最优一致控制研究

韩琦曹瑞翁腾飞陈国荣王慧《重庆邮电大学学报(自然科学版)》2022,34(2):365-372

为研究行为未知的非线性多智能体系统领导-跟随者最优一致控制问题,针对智能体动态方程未知的情况,设计神经网络辨识器学习智能体动力学行为;构造以多智能体系统局部误差为输入的性能指标函数,将多智能体系统领导-跟随者一致性问题转换为求解智能体局部性能指标函数最优值的优化控制问题;结合自适应动态规划思想设计分布式迭代算法求解该优化问题,并讨论了算法的收敛性;设计基于神经网络的评价-执行结构分布式控制器来近似局部性能指标函数,通过神经网络学习迭代寻找局部性能指标函数的最优解,实现多智能体系统的最优一致控制策略。设计的分布式控制器能够根据智能体状态数据自适应产生控制策略,使多智能体系统趋于一致。相似文献

11.

基于改进Q学习的双周期干线信号协调控制方法

李振龙张靖思刘钦邢冠仰《科学技术与工程》2021,21(29):12744-12750

针对双周期干线信号协调控制中干线协调与双周期交叉口通行效率存在一定矛盾的问题,提出了一种基于改进Q学习的双周期干线信号协调控制方法,从状态空间和动作空间两个方面对Q学习算法进行了改进。首先,提出了新的交通状态描述指标——排队消散指数,依据该指标的阈值对交通状态进行等级划分,降低了Q学习状态空间的维数。其次,综合考虑相邻交叉口交通状态之间的关联和影响,针对每种系统状态分别设定可行的关联动作,降低了Q学习的动作空间。最后,以北京市两广路为例验证了改进的Q学习算法。结果表明,改进Q学习算法相比于普通Q学习算法、固定配时方案,干线平均延误分别减少10.47%、9.93%,平均停车次数分别减少22.64%、7.96%,双周期交叉口平均延误分别减少21.58%、24.96%,平均停车次数分别减少8.51%、11.64%,表明该算法对减少双周期干线延误,降低停车次数具有较为显著作用。相似文献

12.

城市交通干线的Q-学习控制算法 总被引：1，自引：0，他引：1

马凤伟刘智勇《五邑大学学报(自然科学版)》2007,21(3):16-22

针对城市交通干线协调控制的要求,提出了利用Q-学习控制算法和模糊算法的分层递阶控制的方法.采用两层结构,第1层为控制层,针对单个路口,对下一个时间段内路口各个方向的相位饱和度进行预测,并在此基础上计算出下一个时间段内各个路口的周期、各个方向上的绿信比;第2层是协调层,采用Q-学习控制算法对干线各个路口间的相位差进行调整.采用TSIS交通分析软件对由5个路口组成的交通干线进行仿真,Q-学习控制算法与定时控制和遗传算法进行比较,结果表明:Q-学习控制算法具有明显的优越性. 相似文献

13.

改进的Q学习算法及在其RoboCup中的应用

周燕艳《四川理工学院学报(自然科学版)》2011,24(4):417-421

传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。文章提出一种改进的Q学习算法,提出将神经网络应用于Q学习,系统只需学习部分状态—动作的Q值,即可进行Q学习,有效的提高收敛的速度。最后在RoboCup环境中验证这个算法,对传球成功率有所提高。相似文献

14.

基于CA-CMAC的Q学习截球算法

申迅刘国栋《科学技术与工程》2011,11(7):1580-1582

CMAC神经网络的主要优点在于其局部修正权重系数,使每次修改的权重系数极少,因此具有快速学习能力,非常适合于在线实时控制。但是在实际的使用过程中,CMAC算法会产生可信度的分配问题。因此使用CA-CMAC来代替CMAC。Q学习是一种重要的强化学习方法,将Q学习与CA-CMAC网络相结合用到Robocup仿真环境中,使智能体通过学习训练球员的截球能力。通过实际的仿真取得了很好的效果,证明算法是有效可行的。相似文献

15.

基于CAS-FQL算法的区域交通控制

李文刘智勇《五邑大学学报(自然科学版)》2012,26(3):67-73

针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习（CAS-FQL）算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率.具体是,利用CAS-FQL算法分别优化路网中各交叉口的周期和相位差,绿信比则采用常规方法优化.TSIS软件交通仿真的结果表明,相比基于Q-学习的控制方法,CAS-FQL算法能显著加快算法的收敛速度、提高交通效率. 相似文献

16.

多智能体Q学习在多AUV协调中的应用研究

严浙平李锋黄宇峰《应用科技》2008,35(1):57-60

分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果表明这个算法是有效的. 相似文献

17.

基于状态集结的值函数逼近

胡光华刘英敏《北京理工大学学报》2000,20(3):304-308

用更为紧凑的方法表示和存贮值函数,以求解大规模平均模型Ｍａｒｋｏｖ决策规划（ＭＤＰ）问题。通过状态集结相对值迭代算法逼近值函数,用Ｓｐａｎ半范数和压缩映原理分析算法的收敛性。给出了状态集结后的Ｂｅｌｌｍａｎ最优方程。在Ｓｐａｎ压缩条件下了该算法的收敛性,同时还给出了其误差估计。相似文献

18.

基于流量模式的Q-学习路由及其连接调度

姚铭明曹霑懋黄启嵩单志龙《华南师范大学学报(自然科学版)》2021,53(4):107-114

为解决无线网状网中因多条路径同时传输数据而引起网络性能降低的问题, 提出了一个基于流量的Q-学习路由与调度方案(QRST): 针对每一个路由请求, 首先采用强化学习中的Q-学习算法寻找路径; 然后根据找到的路径结合信道分配完成组合调度, 以启发式的方法尽可能为每个时隙使用网络资源分配路径的连接. 并在不同网络资源配置和多种流量请求下进行虚拟计算实验, 以验证该方案的正确性和有效性. 实验结果表明: 与COSS方案和AODV方案相比,采用QRST方案的无线网状网在吞吐量、激活链路数量和传输完成时间等网络性能上有较好的表现. 相似文献

19.

An autonomic joint radio resource management algorithm in end-to-end reconfigurable system 总被引：1，自引：0，他引：1

林粤伟 Le Vanbien Xue Yuan Feng Zhiyong Zhang Yongjing 《高技术通讯(英文版)》2008,14(3):238-244

This paper presents the multi-step Q-learning （MQL） algorithm as an autonomic approach to the joint radio resource management （JRRM） among heterogeneous radio access technologies （RATs） in the B3G environment. Through the ＂trial-and-error＂ on-line learning process, the JRRM controller can converge to the optimized admission control policy. The JRRM controller learns to give the best allocation for each session in terms of both the access RAT and the service bandwidth. Simulation results show that the proposed algorithm realizes the autonomy of JRRM and achieves well trade-off between the spectrum utility and the blocking probability comparing to the load-balancing algorithm and the utility-maximizing algorithm. Besides, the proposed algorithm has better online performances and convergence speed than the one-step Q-learning （QL） algorithm. Therefore, the user statisfaction degree could be improved also. 相似文献