期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

彭军刘亚吴敏蒋富张晓勇《系统仿真学报》2008,20(20):5511-5515

针对复杂动态环境下的多智能体协作问题,提出基于信息处理和状态预测的优化动态协作算法.充分考虑其它智能体对环境的影响,采用重要度函数和信息处理方法,对协作所需信息进行筛选和处理.通过引入状态预测算法,在多智能体动态协作过程中对智能体的行为和系统的状态进行预测,以实现协作结构的在线调整,使得多智能体能在内部以新的控制任务或新的平衡状态为目标,进行联合行动的动态协作.通过在典型的复杂动态MAS研究平台--机器人救援仿真比赛系统中应用,验证了该算法的有效性. 相似文献

2.

基于多智能体强化学习的动态频谱分配方法综述

宋波叶伟孟祥辉《系统工程与电子技术》2021,43(11):3338-3351

认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。相似文献

3.

基于多智能体强化学习的协同目标分配

马悦吴琳许霄《系统工程与电子技术》2023,(9):2793-2801

针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题，提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述，将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习，构建了策略评分模型和策略推理模型，采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明，所提方法能够准确刻画作战单元之间的协同演化内因，有效地实现了大规模协同目标分配方案的动态生成。相似文献

4.

基于Metropolis准则的多步Q学习算法与性能仿真 总被引：1，自引：0，他引：1

陈圣磊吴慧中肖亮朱耀琴《系统仿真学报》2007,19(6):1284-1287

强化学习是目前智能体和机器学习研究的热点。针对强化学习中标准Q学习算法更新速度慢的缺点,通过引入多步信息更新策略和模拟退火中的Metropolis准则,提出了一种新颖的多步Q学习算法,称为SAMQ算法。仿真实验表明,与现有的算法相比,该算法能够有效提高收敛速度,较好地解决智能体选择动作时面临的新知识探索还是当前策略遵循的关键问题。相似文献

5.

RoboCupRescue Agent仿真中的多智能体协作方法

黄小雨谈英姿许映秋孟庆法陈科管大琦《系统仿真学报》2009,21(11)

对RoboCupRescue智能体仿真系统内的多智能体协作问题进行了研究和分析,提出一种由多种评价模型和协作方式组成的协作方法,并从同类和异类智能体两个方面给出了具体的实现.该实现主要采用了人工免疫控制、静态分配与动态调整结合以及基于共识的分布式控制等方式.在仿真测试中,各类智能体通过相互协作有效完成了灾难环境中的救援任务. 相似文献

6.

基于均匀设计的多智能体遗传算法研究 总被引：3，自引：0，他引：3

梁昌勇陆青张恩桥魏兆旺《系统工程学报》2009,24(1)

将均匀设计方法、多智能体系统与遗传算法相结合,提出了一种多智能体遗传算法.设计了基于均匀设计表的均匀种群初始化方法和均匀交叉算子,并将其引入算法中.算法通过智能体与智能体环境间的相互作用,以及智能体自学习提高自身能量,实现了复杂问题的全局优化目标.实验表明,该算法对于高维函数优化问题,尤其是高维多峰函数,具有很好的全局搜索能力和较快的收敛速度,能够避免陷入局部最优. 相似文献

7.

动态环境中的多智能体进化算法

闫杨王大志汪定伟王洪峰《系统工程学报》2010,25(4)

针对动态环境,提出了一种基于多智能体的进化算法(MAEA).智能体模拟生物机制特征,相互合作来寻求最优解.智能体生存于网格环境中,为了增加自身能量,智能体可以与其邻域展开竞争,并依据统计信息来获得知识进行学习.为了保持种群多样性,同时引入随机移民和对偶映射策略.通过对一系列动态优化函数的仿真实验可以得出,相比之下,基于多智能体的进化算法可以在动态环境中获得更好的性能. 相似文献

8.

复杂任务下的多智能体协同进化算法

刘家义岳韶华王刚姚小强张杰《系统工程与电子技术》2021,43(4):991-1002

针对多智能体系统在处理复杂任务时存在的低效率、高冗积、多智能体系统内协同模型算法存在交互冲突、资源损耗过高等问题, 提出一种基于复杂任务的多智能体系统优化算法。在差分进化算法与局部优化算法的基础上对二者进行优化, 结合强化学习的训练框架, 构建训练网络, 通过对学习步长进行修订, 改变种群迭代优化准则, 使得种群在计算力充足的情况下可以实现全局收益最大化, 有效解决了指挥控制系统过程中的协同优化问题。相似文献

9.

基于角色变换和强化学习的多机器人协同仿真

樊建郑昌陆费敏锐高志年《系统仿真学报》2009,21(21)

征对多移动机器人协同问题,将角色变换与强化学习相结合,采用集中式控制结构,并提出了距离最近原则,将距离障碍物最近的机器人作为主机器人并指挥其它从机器人运动,同时采用了基于行为的多机器人协同方式,在提出的基于强化学习的行为权重基础上,通过与环境交互使机器人行为权重趋向最佳,并利用基于最大行为值的协调策略来规划机器人避碰行为.通过在动态环境下多机器人协同搬运仿真实验,表明在使用了角色变换和强化学习后,有效减少了多机器人与障碍物发生碰撞的次数,成功的实现了协同搬运,具有良好的学习效果. 相似文献

10.

未知环境中多Agent自主协作规划策略

唐贤伦李亚楠樊峥《系统工程与电子技术》2013,35(2):345-349

针对多智能体(Agent)系统在未知环境中自主协作规划存在任务死锁及协作效率不高的问题,提出一种基于改进蚁群算法的多Agent协作策略,并用于多Agent协作搬运中。该方法将Agent所处位置和目标任务之间的距离以及信息素控制因子引入蚁群算法。实验结果表明,该方法相比没有引入距离因子的协作方法,协作效率更高;相比没有引入控制因子的协作方法,可有效防止任务死锁发生。相似文献

11.

Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用

李琛黄炎焱张永亮陈天德《系统工程与电子技术》2021,43(3):755-762

将人工智能应用于兵棋推演的智能战术兵棋正逐年发展, 基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价, 多算子之间的网络没有协同, 本方算子之间各自行动决策会不够智能。针对上述方法的不足, 提出了一种基于强化学习并结合规则的多智能体决策方法, 以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析, 并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型, 对比每个算子互不交流的封闭式行动决策学习方法, 提出的分布执行集中训练方法更具优势且有效。相似文献

12.

基于径向基函数网络的强化学习在机器人足球中的研究 总被引：2，自引：1，他引：1

罗青李智军 Iqbal Nadeem 吕恬生《系统仿真学报》2002,14(8):1094-1097

与监督学习从范例中学习的方式不同，强化学习不需要先验知识，而是具有从经验中学习的能力，将强化学习应用在大状态空间中，必须应用函数逼近的方法，如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。相似文献

13.

针对无人潜航器的反潜策略研究

曾斌张鸿强李厚朴《系统工程与电子技术》2022,44(10):3174-3181

近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大, 其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此，提出了一种两阶段规划算法, 用以学习优化反潜策略, 在部署阶段, 建立了基于不确定性马尔可夫决策过程的反潜资源分配模型, 并设计了鲁棒性部署策略强化学习算法, 用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段, 建立了基于部分可观察马尔可夫决策过程的搜潜模型, 并设计了基于多智能体强化学习的搜潜策略学习算法。最后，通过仿真实验验证了本算法与比对算法相比具有更高的性能。相似文献

14.

基于模糊强化学习的双轮机器人姿态平衡控制

闫安陈章董朝阳何康辉《系统工程与电子技术》2021,43(4):1036-1043

针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题, 提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法。首先，运用拉格朗日法建立带控制力矩陀螺的系统动力学模型。然后, 在此基础上设计表格型强化学习算法, 实现机器人的稳定平衡控制。最后，针对算法存在的控制精度不高和控制器输出离散等问题, 采用模糊理论泛化动作空间, 改善控制精度, 并使控制输出连续。仿真实验表明, 相较于传统强化学习方法, 所提方法能够显著提高控制精度, 且可以有效抑制外界干扰力矩对系统的影响, 保证系统具有一定的抗干扰能力。相似文献

15.

重复囚徒困境博弈中社会合作的仿真 总被引：4，自引：0，他引：4

张发宣慧玉《系统管理学报》2004,13(2):112-115

利用Multi-Agent仿真方法建立了一个人工社会,研究了两种个体行为模式下社会合作的演化。在人工社会中有多个智能自适应主体,主体之间进行重复囚徒困境博弈,并采用模仿学习算法改进策略。在基本模型中没有个体的历史行为信息,系统自发演化;在信誉模型中,主体的历史行为累积为信誉,在交互前主体根据对方的信誉临时调整策略。仿真结果显示:系统的演化复杂多样,均有合作的突现和崩溃。对两模型的合作指标比较表明,根据信誉调整策略的行为模式对促进合作无显著效果。相似文献

16.

基于核函数强化学习的抗干扰频点分配

江志炜黄洋吴启晖《系统工程与电子技术》2021,43(6):1547-1556

针对学习未知动态的干扰图样问题，提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法。与需要获得干扰模式、参数等先验知识的研究相反，所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略。首先，通过核函数的强化学习来应对维度诅咒问题。其次，基于近似线性相关性的在线内核稀疏化方法，确保了抗干扰频点分配算法的稀疏性。最后，仿真结果验证了所提算法的有效性。得益于稀疏化码字对于系统动态特性的学习，所提算法与传统基于Q学习的抗干扰频点分配算法相比，收敛时间更短，并且可以快速规避外部未知干扰源的干扰。相似文献

17.

基于EAS+MADRL的多无人车体系效能评估方法研究

高昂郭齐胜董志明杨绍卿《系统工程与电子技术》2021,43(12):3643-3651

无人作战开始步入现代战争舞台, 多无人车(multi unmanned ground vehicle, MUGV) 协同作战将成为未来陆上作战的主要样式。体系效能评估是装备论证和战法研究的核心问题, 针对MUGV体系效能评估问题, 建立了一套以自主学习算法为基础的探索性仿真分析方法。将MUGV对抗过程建模为零和随机博弈(zero sum stochastic game, ZSG)模型, 通过使用多智能体深度强化学习类方法(multi agent deep reinforcement learning, MADRL)探索在不同对方无人车规模条件下, ZSG模型的纳什均衡解, 分析纳什均衡条件下参战双方胜率, 作战时长等约束, 完成MUGV体系作战效能评估, 并在最后给出了MUGV体系效能评估应用示例, 从而建立了更可信、可用的体系效能评估方法。相似文献

18.

基于正强化学习和正交分解的干扰策略选择算法

颛孙少帅杨俊安刘辉黄科举《系统工程与电子技术》2018,40(3):518-525

强化学习作为自学习和在线学习方法,以试错的方式与动态环境进行持续交互,进而学习到最优策略,成为机器学习领域一个重要的分支。针对当前无线通信干扰策略研究依赖先验信息以及学习速度过慢的缺点,提出了基于正强化学习-正交分解的干扰策略选择算法。该算法利用正强化的思想提高了最优动作被选中的概率,进而加快了系统的学习速度。特别地,当通信信号星座图因诸多因素而产生畸变时,利用提出的正交分解算法能够学习到最佳干扰信号的同相分量和正交分量,即通过学习获得最佳干扰样式。仿真结果表明,利用正强化学习-正交分解算法能够更加快速地学习到最优干扰参数和最佳干扰样式,相同任务中,仅需更少的交互次数且干扰效果更好,较现有干扰策略选择算法更优。相似文献