期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朴松昊孙立宁钟秋波黄庆成《华中科技大学学报(自然科学版)》2008,36(Z1)

提出了在动态环境中,多Agent的一种协作模型,适用于环境信息不完备的复杂情况.将Agent的独立强化学习与BDI模型结合起来,使多Agent系统不但拥有强化学习的高度反应性和自适应性,而且拥有BDI的推理能力,使只使用数值分析而忽略推理环节的强化学习结合了逻辑推理方法.使用了Borlzman选取随机动作,并且采用了新的奖励函数和表示方法,减少了学习空间,提高了学习速度.仿真结果表明所提方法可行,能够满足多Agent系统的要求. 相似文献

2.

基于Markov对策和强化学习的多智能体协作研究 总被引：4，自引：0，他引：4

李晓萌杨煜普许晓鸣《上海交通大学学报》2001,35(2):288-292

MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q－算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q－算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。相似文献

3.

基于主智能体的群体学习算法GLBMA

程显毅李淑琴夏德深《江苏大学学报(自然科学版)》2005,26(5):437-439

以机器人足球比赛（RoboCup）为背景，基于主智能体和辅助智能体概念，提出了基于主智能体群体强化学习算法（GLBMA），该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习，改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明，传统群体强化学习算法中的行为学习状态空间过大，连续状态空间的行为选择及多智能体合作求解等问题得到了解决．相似文献

4.

基于生物智能算法的智能控制研究与实践应用

谢文光阎芳汪克念《科技导报(北京)》2019,37(17):65-72

传统的自动控制方法因为其固定参数等弊端极大限制了控制效果,生物智能算法因为其环境自适应与自学习机制的特性,为突破传统控制方法的瓶颈提供了一种新的思路,并且随着强化学习等机器学习理论与方法的不断完善与发展,生物智能算法的性能也得到了极大的提高。总结了在智能控制中常用的7种生物智能算法,分析了经典的自动控制方法与生物智能算法,尤其是强化学习、深度学习等新型智能算法的结合的应用实例。结合近年来兴起的深度学习,强化学习及类脑智能科学对智能控制的发展现状,以及未来的发展趋势进行展望。强调一种智能辅助控制方法,将智能算法与传统控制方法相结合,为智能控制的研究提供新的思路与实用范例。相似文献

5.

多智能体系统中具有先验知识的Q学习算法 总被引：12，自引：0，他引：12

杜春侠高云张文《清华大学学报(自然科学版)》2005,45(7):981-984

为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。相似文献

6.

面向主动配电网的安全多智能体深度强化学习电压优化控制

梅铭洋寇鹏张智豪梁得亮《西安交通大学学报》2023,(12):157-167

针对主动配电网电压优化控制中模型不确定性和通信代价大的问题，提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习，应对主动配电网的固有不确定性，并采用多智能体结构实现通信代价较小的分布式控制。首先，将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后，对无功功率进行适当修改，通过分析节点电压的变化得到灵敏度矩阵，进而与主动配电网环境进行交互，训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比，该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层，在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明：所提出的算法不仅能够满足电压约束，而且相较于多智能体深度确定性策略梯度(MADDPG)算法，网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。相似文献

7.

一种基于意图跟踪和强化学习的agent模型 总被引：1，自引：0，他引：1

续爽贾云得《北京理工大学学报》2004,24(8):679-682

针对动态对抗的多agent系统(MAS)环境中agent行为前摄性较差的问题,提出了一种将意图跟踪和强化学习相结合的agent模型.该模型将对手信息和环境信息分开处理,在agent的BDI心智模型中引入了Q-学习机制应对环境变化;在强化学习的基础上注重对对手和对手团队的意图跟踪,改进Tambe的意图跟踪理论,针对特定对抗环境中的对手行为建立对手模型,跟踪对手和对手团队的意图,预测对手目标,以调整自身行为.实验证明,所提出的agent模型具有更强的自主性和适应性,在动态对抗系统中具有更强的生存能力. 相似文献

8.

基于多智能体深度强化学习的空间众包任务分配

赵鹏程高尚于洪梅《吉林大学学报(理学版)》2022,60(2):321-331

针对现有空间众包中的任务分配大多只考虑单边、短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作；然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配；最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性. 相似文献

9.

基于强化学习的非玩家角色行为改进

李炎武陈渝曾庆维罗程林涛《四川大学学报(自然科学版)》2014,51(5):915-920

当前游戏中非玩家角色(Non-player Character,NPC)的行为主要基于随机决策或者传统的预定义行为决策,该方法的NPC不具有对游戏环境的自主学习能力.本文研究的目的是探索将强化学习方法应用于提高游戏NPC智能,使NPC在游戏过程中能实时地学习和适应演进的游戏环境,产生最合适的行为策略来响应玩家.本文提出一种动态训练强化学习的探索率参数方法,并将该方法应用于经典的Bomber Man游戏中.实验结果表明,该方法训练的NPC比非强化学习和传统强化学习训练的NPC具有更高的智能. 相似文献

10.

一种基于模型的强化学习算法

苏浩铭王浩《合肥工业大学学报(自然科学版)》2008,31(9)

收敛速度是衡量机器学习算法的一个重要指标,在强化学习中,如果算法不充分利用从每次学习中获取的经验知识,算法的收敛速度则比较缓慢;为了提高强化学习的收敛速度,文章将环境模型的学习引入到强化学习过程中,首先学习环境模型,然后根据所得的新模型重新指导强化学习过程,在Linux下的RoboCup仿真平台上对该算法进行了验证,实验结果证明了其有效性. 相似文献

11.

基于贝叶斯方法的多Agent强化学习

郑顾平曹锦纲《河北理工学院学报》2005,27(4):65-68

在多agentss强化学习（MARL）的研究中，很多都是强调MARL算法收敛于期望平衡解。然而，对于标准的强化学习，该过程需要对策略空间的充分探测，而且探测还经常受到惩罚或错失了良机。在多agents系统中，由于agents之间的协作使该问题更加复杂。为此，提出了在MARL用贝叶斯模型来进行最优探测，该模型与标准的RL模型不同，它将对agent的动作是如何影响其它agents的行为进行推理。同时，还给出了如何对最优贝叶斯探测进行处理以获得理想的结果，并通过与其它算法的比较来说明用贝叶斯方法的可行性. 相似文献

12.

一种改进的多主体学习方法

王盈瑛《辽宁大学学报(自然科学版)》2007,34(1):81-84

Agent具有自私的特性．为了在多agent系统学习时使学习效果体现最大的群体利益，提出了一种改进的多agent学习方法．该学习方法改进了基于基组织共识学习的学习方法，在多agent学习时考虑了主体的可信度问题，从而使最后的学习结果更具真实性．相似文献

13.

AODE中基于强化学习的Agent协商模型 总被引：10，自引：2，他引：8

王立春高阳等《南京大学学报(自然科学版)》2001,37(2):135-141

AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。相似文献

14.

基于先验知识的强化学习系统 总被引：2，自引：0，他引：2

李伟何雪松叶庆泰朱昌明《上海交通大学学报》2004,38(8):1362-1365

针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知，由此造成该算法从没有任何基础开始搜索最优策略，搜索范围大的问题，提出将强化学习系统建立在先验知识的基础上，既有效利用了前人的工作成果，又加快了算法的收敛速度．通过解决电梯群控问题验证了所提出系统的合理性和有效性．相似文献

15.

agent—oriented软件开发方法

程明刘艳丽等《天津大学学报(自然科学与工程技术版)》2001,34(5):641-645

agent-oriented是一种较新的开发软件的方法,针对agent-oriented方法用于解决现实社会中复杂系统的问题进行讨论,并且介绍了基于agent-oriented方法处理复杂系统的技术步骤。最后,给出了一个基于agent-oriented方法开发的软件实例。相似文献

16.

基于Internet的DOL教材信息发现和收集Agent 总被引：4，自引：0，他引：4

周文辉张灵玲李俊韩耀伟潘金贵三枝武男坂上修二奥山明《南京大学学报(自然科学版)》1999,35(1):74-81

介绍一个基于多Ａｇｅｎｔ（ｍｕｌｔｉ－ａｇｅｎｔ）体系结构的信息检索系统：ＤＯＬＴＲＩ－Ａｇｅｎｔ．ＤＯＬＴＲＩ－Ａｇｅｎｔ用于从Ｉｎｔｅｒｎｅｔ上发现和收集用于远程开放教学（ＤｉｓｔａｎｃｅａｎｄＯｐｅｎＬｅａｒｎｉｎｇ,简称ＤＯＬ）中进行教材设计的教材信息．ＤＯＬＴＲＩ－Ａｇｅｎｔ根据用户需要和任务模型主动、智能和协作地搜索Ｉｎｔｅｒｎｅｔ上的各种信息资源（如数据库,ＷＷＷ服务器等）,对搜集到的教材信息归类存储,实时地更新本地教材信息库以与外部信息源保持动态一致．它还接收Ｉｎｔｅｒｎｅｔ信息空间中其他教材信息搜集Ａｇｅｎｔ和其他类型Ａｇｅｎｔ的服务请求,开放地与其他Ａｇｅｎｔ进行互操作,实现信息共享和交流相似文献

17.

基于再励学习的歼击机安全着陆横侧向协调控制

文博武胡寿松《东南大学学报(自然科学版)》2005,(Z2)

基于大系统递阶控制思想,提出了一种运用再励学习算法设计歼击机自动着陆横侧向协调控制系统的方法.将再励学习算法引入歼击机着陆阶段的横侧向子系统的协调控制中,对滚转通道和航向通道的控制器参数进行在线寻优,提高了在线补偿神经网络消除非线性系统逆误差的能力,有效地改善了歼击机着陆阶段横侧向控制子系统的鲁棒性能.通过将这种方法应用于某型歼击机自动着陆控制的实时仿真研究,仿真结果表明了本文方法的有效性和可行性. 相似文献

18.

多Agent MDPs中并行Rollout学习算法

李豹《安徽工程科技学院学报：自然科学版》2014,(2):75-78

文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由于Rollout算法具有很强的内在并行性,文中还分析了并行求解方法.通过多级仓库库存控制的仿真试验,验证了Rollout算法在多Agent学习中的有效性. 相似文献

19.

基于网络与VR技术的协同设计体系结构 总被引：2，自引：1，他引：1

刘子建张建华《湖南大学学报(自然科学版)》2000,27(5):29-32

讨论了基于网络和ＶＲ技术的协同设计在机电产品计过程中的重要作用,构造了这项技术的体系结构,指出了这一研究领域中关于ＭＡＳ和应用集成技术等几个关键研究问题。相似文献