首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.  相似文献   

2.
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解。然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机。在多agents系统中,由于agents之间的协作使该问题更加复杂。为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理。同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性.  相似文献   

3.
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解.然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机.在多agents系统中,由于agents之间的协作使该问题更加复杂.为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理.同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性.  相似文献   

4.
基于信度分配的串行集成CMAC及其仿真   总被引:1,自引:0,他引:1  
针对Albus CMAC在学习精度与存贮容量之间的矛盾,借鉴神经网络集成思想,并引入可信度的概念,提出了基于信度分配的串行集成CMAC,以提高学习系统的泛化能力和网络收敛速度。通过对复杂非线性函数的逐级降维,分步逼近,有效地提高了网络的学习精度。仿真研究进一步验证了该方案的可行性和有效性。  相似文献   

5.
结合Logistic回归分类,该文提出一种新的构造证据理论基本信度分配函数的方法,并将其应用于多特征图像分类.该方法首先以多类Logistic回归分类法输出的后验概率与样本分类正确率建立证据权重系数,然后构造出加权的基本信度分配函数,最后利用加权D-S证据融合判别所属类别.实验结果显示:该方法既能提高图像分类的正确率,又能改正使用单特征分类导致的分类正确率的不稳定的缺点.  相似文献   

6.
为了有效地处理冲突证据,提出了一种基于信度函数的新方法.设计了一个证据信度函数,并用此函数来计算证据之间的后验权重分配.给出了先验权重和后验权重的合成方法,从而得到最终权重分配.采用最终权重对现有证据进行加权平均,并采用Dempster-shafer组合规则进行融合,从而得到最终融合结果.与其他方法相比,该方法考虑的因素更全面、适用性更强.实例表明,该方法能够比其他方法更快、更有效地识别出目标.  相似文献   

7.
8.
交叉口是城市交通的核心和枢纽,要想有效地提升城市交通体系的通行效率,对交叉口信号配时的优化显得尤为必要。由于城市路网中大范围的信号配时方法决策属于模糊决策问题,而且路网中的车辆具有实时性,强化学习的方法可以适用于交通信号配时领域。本文把主流的Q-强化学习方法应用于干道交叉口信号配时,在每个路口以状态空间、信号周期、每个相位绿灯时间为参数建立模型,设置奖惩函数,并以车辆延误为指标,即Q函数,在相邻路口Agent的信息交换之后得出每个路口该时段的最优动作,降低了由于交叉口数量增多造成的各交叉口Agent间信息交互的次数,避免了独立强化学习可能出现的维数灾难、无法长期学习等问题。实验结果表明:基于Q-强化学习的城市干道交叉口信号配时方法相比于固定配时和传统的Q-强化学习策略,能降低车辆延误,提升收敛速度,提高系统效率。  相似文献   

9.
10.
基于互信息和测度学习信度网结构   总被引:4,自引:0,他引:4       下载免费PDF全文
交叉熵是对一个分布与其近似分布的接近程度的度量。在许多关于信度网结构的学习文献中,都将交叉熵作为检验算法学习效果的一个指标。笔者直接从交叉熵最优这一指标出发,在分析已有测度的基础上,提出了一个新的测度-互信息和测度,并证明了该测度的可分解性质。最后,给出了利用互信息和测度进行信度网结构学习的两种启发式搜索算法。  相似文献   

11.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

12.
一种基于意图跟踪和强化学习的agent模型   总被引:1,自引:0,他引:1  
针对动态对抗的多agent系统(MAS)环境中agent行为前摄性较差的问题,提出了一种将意图跟踪和强化学习相结合的agent模型.该模型将对手信息和环境信息分开处理,在agent的BDI心智模型中引入了Q-学习机制应对环境变化;在强化学习的基础上注重对对手和对手团队的意图跟踪,改进Tambe的意图跟踪理论,针对特定对抗环境中的对手行为建立对手模型,跟踪对手和对手团队的意图,预测对手目标,以调整自身行为.实验证明,所提出的agent模型具有更强的自主性和适应性,在动态对抗系统中具有更强的生存能力.  相似文献   

13.
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。  相似文献   

14.
介绍了激励学习和两类学习算法:Q学习和SARSA学习,提出一类基于RBF函数的特征状态离散化方法,并对该方法进行了初步的实验比较.  相似文献   

15.
针对传统的CDN流量调度系统大多采用启发式方法或规划方法,存在维护成本高,实时性不足等缺点,提出一种基于深度强化学习的CDN流量调度系统设计框架.该框架基于马尔科夫链设计了故障告警网络来触发调度,建立了基于stacking模型的质量评估奖励函数,并在此基础上对流量调度进行定义和建模,构建了基于DQN的深度强化学习模型....  相似文献   

16.
有效的备件供应保障是保证航空装备处于良好状态的重要因素.战时备件供应保障的不确定性特点突出.为了应对这些不确定,精确保障要求下战时备件供应保障更加强调备件资源在系统中的动态协调.鉴于战时备件供应保障系统与多Agent系统的相似性,采用基于Agent的建模仿真技术研究多阶段供应保障过程中的动态协调机制.以Agent之间的供需关系为基础给出了多Agent系统模型结构中小组的定义.为了给出备件短缺情况下使军事效益最大的备件分配策略,设计出以小组为单位的多Agent强化学习方法.最后通过仿真实例验证了方法的有效性.  相似文献   

17.
将个性行为绑定到信息Agent上,提出了一种基于个性的协同强化学习算法,让不同个性的Agent充当合适的角色.基于共同的目标和相同的信息,Agent可能产生共同的意图,规划出共同的行为,使得MAS可以适用于动态、实时、有干扰、对抗的环境中.  相似文献   

18.
研究了基于强化学习的多机器人学习社会合作行为的问题。通过定义的分配布尔矩阵,对参与任务者进行奖励回报,并综合基础行为,生成状态到行为的新的映射,形成高级的群体合作行为,使得团队作为一个整体受益。讨论了学习社会行为的可行性和必要性,并采用强化学习方法,给出了多机器人传接合作搬运的详细算法实现。  相似文献   

19.
AODE中基于强化学习的Agent协商模型   总被引:8,自引:2,他引:8  
AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号