首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 756 毫秒
1.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

2.
交叉口是城市交通的核心和枢纽,要想有效地提升城市交通体系的通行效率,对交叉口信号配时的优化显得尤为必要。由于城市路网中大范围的信号配时方法决策属于模糊决策问题,而且路网中的车辆具有实时性,强化学习的方法可以适用于交通信号配时领域。本文把主流的Q-强化学习方法应用于干道交叉口信号配时,在每个路口以状态空间、信号周期、每个相位绿灯时间为参数建立模型,设置奖惩函数,并以车辆延误为指标,即Q函数,在相邻路口Agent的信息交换之后得出每个路口该时段的最优动作,降低了由于交叉口数量增多造成的各交叉口Agent间信息交互的次数,避免了独立强化学习可能出现的维数灾难、无法长期学习等问题。实验结果表明:基于Q-强化学习的城市干道交叉口信号配时方法相比于固定配时和传统的Q-强化学习策略,能降低车辆延误,提升收敛速度,提高系统效率。  相似文献   

3.
构建了一种用于描述交叉口多相位信号控制路网容量的双层规划模型.其中,下层模型是一个交叉口多相位信号控制路网用户均衡分配模型,用以求解给定信号配时参数和交通需求量下的路段均衡流量,该模型考虑了各相位下的信号延误.上层模型是一个非线性规划模型,模型以路网容量最大为目标,对信号配时参数和O-D需求量进行优化.双层规划模型采用基于灵敏度分析的BLABD算法求解,算法的主要思想是通过差商的方法估计路段均衡流量对设计变量的导数,从而将上层模型中未知路段流量函数展开为一个线性函数.算例分析结果显示,该算法能有效求解多相位信号控制路网容量问题,具有实用价值.  相似文献   

4.
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.  相似文献   

5.
基于多智能体和模糊控制的道路交叉口建模与仿真   总被引:1,自引:1,他引:0  
利用Agent技术对道路交叉口进行建模,着重介绍了交叉口Agent的内部结构和控制策略.在交叉口控制中应用模糊理论和蚁群算法,提出了一种具有自学习机制的交叉口信号模糊控制方法.对模糊控制规则应用蚁群算法进行优化,使得交叉口Agent具有自学习能力.编制交叉口Agent的仿真程序,将所研究模型的控制效果与传统模糊控制模型的效果进行了比较.仿真实验的结果表明:具有自学习机制的交叉口信号模糊控制方法的效果明显优于传统的模糊控制方式.  相似文献   

6.
引入谈判博弈的Q-学习下的城市交通信号协调配时决策   总被引:1,自引:1,他引:0  
由于城市交通路网中交叉口间交通信号决策是相互影响的,并且车联网技术使得交叉口交通信号配时agent间能进行直接交互,此决策问题可用博弈框架来描述。建立了城市路网中相邻交叉口间交通流关联模型,通过嵌入谈判博弈模型来设计Q-学习方法,此方法中利用谈判参考点来进行配时行为的选择。仿真实验分析表明,相对于无协调的Q-学习算法,谈判博弈Q-学习取得更好的控制效果和稳定性能。谈判博弈Q-学习在处理交通拥挤及干扰交通流时,能根据交通条件灵活地改变交通信号配时决策,具有较强的适应能力。  相似文献   

7.
关于Agent个体的机器学习一直是Agent研究的一个重要方面,本文对再励学习中的Q学习算法做了简单介绍,然后在一个基于Agent的机器人足球赛平台上将Q学习算法引入,并进行了对比实验。  相似文献   

8.
为了研究信号控制延误对路网容量的影响,考虑到出行者针对交叉口信号控制延误的路径选择行为,建立了双层规划的路网容量模型.下层问题是考虑信号控制延误的用户均衡分配模型,它能预测司机对于某一种信号设置方式的择路行为;上层问题是考虑用户择路行为时的信号配时参数的优化,以使路网容量最大.该模型所调节的参数包括周期时长和绿信比.采用基于灵敏度分析的启发式算法求解该问题.算例应用表明,考虑交叉口延误的路网容量模型可以通过调节交叉口各个入口的延误使交通量在各个路径之间分配更为均衡,路网容量比不考虑延误时增大了35.16%.  相似文献   

9.
强化学习和规划技术在目标上有着很高的相似性,而在技术上又具有互补性,因此,基于强化学习的Agent规划规则抽取问题长期以来一直是研究的热点。针对基于强化学习的多Agent系统在规划规则抽取方面存在的问题,提出了一种从多Agent Q学习中抽取满足规划条件的规划规则的RL—MAPRE算法,并给出了理论分析。  相似文献   

10.
城市交叉口 Agent间的多遇交互历史学习协调方法   总被引:2,自引:0,他引:2  
为信号控制的城市道路交叉口定义一个Agent结构模型,利用双人对策Nash平衡理论构建了城市交叉口Agent间的多遇交互模型,每一交叉口Agent与相邻交叉口Agent进行多次交互学习,根据选择策略获得的效用值来更新它的混合策略.利用记忆因子δ、学习概率α、交叉口交通流变化概率βi等参数分析了交叉口Agent间的循环学...  相似文献   

11.
针对城市中重大事件期间的交通出行特点,提出基于交通组织的上层优化算法与基于信号控制的"绿波"与"红波"下层协同优化算法,其中对于静态的交通组织优化方案不能及时响应动态疏散需求的问题,通过在时间维度的离散化对上层算法进行优化;根据上层优化结果相应地调整信号控制策略,考虑关键路段的蓄车能力来限制信号周期以及路口可能发生的绿灯空放现象和车辆溢出现象来确定相位差设计范围;并以整体延误最小化、交通通行能力最大化作为优化目标建立路网交通双层优化模型。仿真结果表明,该模型下主要道路交叉口的通行车辆数平均提高7.1%,同时5个道路交叉口的车辆总延误平均减少5.8%,验证了模型在应对重大活动事件造成的道路交通拥堵有更佳的适用性。  相似文献   

12.
基于Markov对策和强化学习的多智能体协作研究   总被引:4,自引:0,他引:4  
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q-算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。  相似文献   

13.
面向复杂多变的交通系统控制需求,提出一种考虑交通管理策略的交叉口信号控制多目标优化模型及算法,其步骤为:首先,构建城市道路交叉口多目标优化模型;然后,引入交通管理者的交通控制策略,基于模糊分析法确定各优化指标权重;最后,考虑Q学习算法简单方便且具有快速收敛性,基于Q学习算法对多目标优化模型进行求解,从而实时产生考虑交通管理者策略的交叉口信号控制方案。仿真结果表明,所提出的方法不仅能够充分反映交通管理者的控制策略,而且能够有效提高交叉口通行效率,相比传统方法具有缩短排队长度、降低延误时间和减少停车次数的优势,并且这种优势随着交通流量的增大而更加明显。  相似文献   

14.
Agent技术特别是多Agent系统MAS(Mutil-Agent system)为解决人工智能等领域复杂问题提供了一个新途径.以MAS等理论为指导,结合Agent强化学习的基本原理,提出一种基于多Agent系统的偏好学习模型.该模型可以应用于针对用户偏好的互联网搜索中,对提高信息检索的查准率有一定帮助.  相似文献   

15.
随着定位设备的普及以及大规模移动轨迹数据的快速涌现,使得基于移动轨迹的数据挖掘和知识发现研究变得越来越热,其中一个有价值的研究方向是从GPS轨迹中抽取路网结构.然而如何有效地从轨迹数据中探测交叉口并进而构造路网却是一个难以解决的问题,针对此问题提出了一个基于轨迹点聚类的交叉口探测算法,以及在此基础上的路网快速构造方法.实验结果表明,算法能够有效地确定交叉口的位置及数量,且利用探测到的交叉口能够实现路网结构的快速构造.  相似文献   

16.
城市路网交通流系统具有很强的随机性和时变性,单一固定的交通流模型难以准确地描述城市路网的实际运行情况,在考虑交通流稳态和动态特性的基础上,提出了一种含有未知时变多参数的非线性宏观交通流模型,并针对交通流固有的重复性特征,设计了一种时变多参数的自适应迭代学习辨识策略。在有限时间区间内,利用迭代学习辨识策略将参数辨识问题转化为最优跟踪控制问题,使交叉口各进口道的排队车辆数均趋于真实值,利用去伪算法的实时自适应能力调整迭代学习辨识策略的学习律增益,提高辨识策略的抗干扰能力。通过严格的数学理论推导证明了该算法的收敛性,最后采用基于模型的控制方法进行仿真实验,进一步验证了该方法的有效性。  相似文献   

17.
AODE中基于强化学习的Agent协商模型   总被引:10,自引:2,他引:8  
AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。  相似文献   

18.
针对有人与无人驾驶车辆在交叉口存在冲突时的协调控制问题,引入智能网联车辆的设计思想,将交叉口存在交互行为的决策个体建模为博弈中的参与者,以冲突车辆的速度改变方案为博弈策略,构建双方的收益矩阵,而驾驶收益采用行车安全收益、行车效率收益和行车舒适性收益来计算,求解博弈模型的纳什均衡,作为双方的最优驾驶策略组合,完成交叉口多车冲突的协作优化.模型加入驾驶员类型的多样性模拟,基于Matlab对提出的算法进行验证,结果表明无人驾驶车辆会根据对方驾驶员行为调整自身的行为策略,与基于冲突表的协作算法对比,本算法的冲突消解所用时间更短,在确保安全的同时提高了冲突车辆通过路口的效率.   相似文献   

19.
针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法.在实用推理框架下,首先在慎思过程中通过考虑群体意图来确定单个Agent的子意图;然后,在手段-目的推理过程中采用Q-学习算法得出实现子意图的最优策略,从而实现群体意图.在Q-学习算法中,各Agent只需考虑自身的状态-动作的值函数更新,对其他Agent值函数的更新可以不加考虑,从而大大降低了算法的空间复杂度,提高了学习速度.追捕问题的仿真实验结果验证了算法的有效性.  相似文献   

20.
针对电梯群控系统这一类复杂的派梯优化决策问题,应用多Agent的理论与技术,建立了系统强化学习模型.提出了一种基于GA算法的多Agent强化学习方法,给出了具体算法的一般描述.建立电梯群控调度系统的虚拟仿真环境,并与其他算法进行了对比研究.仿真结果表明:该方法在提高强化学习的效率和收敛速度,改善种群结构等方面收到了很好的求解效果,为电梯群控系统的优化调度决策提供了一种较好的途径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号