期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

马悦吴琳许霄《系统工程与电子技术》2023,(9):2793-2801

针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。相似文献

2.

基于多智能体强化学习的大规模无人机集群对抗

王泊涵吴婷钰李文浩黄达金博杨峰周爱民王祥丰《系统仿真学报》2021,(8):1739-1753

攻击成本低、体系生存率高且具备细粒度灵活作战能力的无人机集群作战未来将成为重要的战争形态.高效而适应性地对无人机集群进行细粒度任务规划,对提高集群作战效能具有重要意义.多智能体强化学习在解决群体序列决策任务时存在维度灾难及组合爆炸,多适用于小规模场景.将对抗环境中的无人机集群任务规划问题建模为马尔可夫博弈问题,基于平均... 相似文献

3.

基于多智能体强化学习的多机器人协作策略研究

段勇徐心和《系统工程理论与实践》2014,34(5):1305-1310

研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作. 相似文献

4.

基于着色理论的认知无线电频谱分配算法 总被引：3，自引：0，他引：3

李一兵杨蕊高振国《系统工程与电子技术》2010,32(6):1109-1112

认知无线电技术是解决当前频谱资源紧缺情况的有效手段,其中动态频谱分配技术是一个非常重要的环节。首先基于图着色理论建立了分配模型,分析了基于着色理论的频谱分配算法,并针对认知网络节点的动态性提出动态的频谱分配算法,该算法建立在已分配频谱的基础上,通过冲突节点相应信道的释放和寻找空闲信道算法减轻节点移动对频谱分配的影响。实验结果表明,此算法在不减少系统效用的情况下能有效减少参与重新分配信道的节点个数,减小动态频谱分配的复杂度。相似文献

5.

基于强化学习的频谱决策与传输算法

江虹伍春刘勇《系统仿真学报》2013,25(3)

在认知无线电(CR)通信中,各信道可能具有不同的带宽、干扰强度和主用户冲突概率,如何据自身业务特性选择最佳信道和传输策略是系统设计的关键问题之一.提出一种基于Q学习的在线学习算法,用于解决多用户多信道CR系统中的信道选择与自适应传输问题.在不知道信道状态信息和主用户业务特性情况下,通过在线学习,获得各种环境下的最佳频谱选择与自适应传输策略.为验证所提方法的有效性,采用随机频谱选择算法和最小干扰频谱选择算法与所提方法进行比较.仿真结果表明,提出的方法通过在线学习实现了认知无线电的自适应控制,能够有效增加认知无线电的通信性能. 相似文献

6.

基于影响图的多智能体学习算法

钟麟陈丽娟佟明安张圣云《系统工程学报》2008,23(3):377-380

提出一种多智能体学习算法.用影响图作为 agent 表示工具,给定 agent 的一个初始模型和它的历史行为,在能力、信念和优先学习的基础上来构建新的模型.学习方法是把其它 agent 的历史行为作为训练集,利用神经网络以及决策知识和专家知识来修改影响图中各结点的连接关系.针对与 agent 历史行为不一致的情况,本文把它看成效用函数发生了随机偏差,通过 Markov chain-Monte Carlo 技术进行模拟,实现效用函数的调整.最后利用多机编队协同空战作为例子说明算法的实用性. 相似文献

7.

基于信道分配的多跳认知无线电网络路由算法 总被引：1，自引：0，他引：1

李云张智慧黄巍王勇曹傧《系统工程与电子技术》2013,35(4):852-858

现有认知无线电网络中路由算法没有综合考虑主用户的到达率和认知用户竞争使用信道对网络性能的影响。针对上述问题,结合认知无线电网络频谱动态变化的特性,提出一种基于信道分配的多跳认知无线电网络路由算法（multi-hop cognitive routing basedan channel allocation, MCRC）。MCRC算法先得到最大化总吞吐量的全局信道分配,然后考虑主用户使用授权信道的概率和认知用户竞争使用信道的概率,得到认知用户使用某个信道的概率,最后以信道的有效传输时延作为选路标准,根据Dijkstra算法选择最小时延的路径。性能评估结果表明,MCRC明显地减小了平均端到端时延,极大地提高了平均端到端吞吐量。相似文献

8.

认知无线电系统中三维联合频谱分配算法

谢玉鹏谭学治马琳黄昊田野吴海燕《系统工程与电子技术》2014,36(11):2303-2307

为了减少对授权用户的干扰和降低认知用户之间的竞争,保证认知无线电系统正常通信,采用可靠性理论描述一个信道是否能够被认知用户所使用及被连续使用一段时间的概率。从空间、时域和频域3个方面联合起来研究频谱分配,仿真结果表明,三维算法的传输数据量和系统的总吞吐量的值优于贪婪算法和二维算法,有助于减少认知用户对授权用户的干扰和降低认知用户之间的竞争,表明所提算法的有效性。相似文献

9.

动态环境中的多智能体进化算法

闫杨王大志汪定伟王洪峰《系统工程学报》2010,25(4)

针对动态环境,提出了一种基于多智能体的进化算法(MAEA).智能体模拟生物机制特征,相互合作来寻求最优解.智能体生存于网格环境中,为了增加自身能量,智能体可以与其邻域展开竞争,并依据统计信息来获得知识进行学习.为了保持种群多样性,同时引入随机移民和对偶映射策略.通过对一系列动态优化函数的仿真实验可以得出,相比之下,基于多智能体的进化算法可以在动态环境中获得更好的性能. 相似文献

10.

基于离散人工蜂群算法的认知无线电频谱分配

李鑫滨刘磊马锴《系统工程与电子技术》2012,34(10):2136-2141

针对二进制粒子群优化算法在认知无线电频谱分配中容易陷入局部最优等问题,将人工蜂群算法引入到认知无线电频谱分配中,提出了基于离散人工蜂群算法的认知无线电频谱分配方法。针对一种认知无线电网络模型,将离散人工蜂群算法中的蜜源位置离散化,与模型中的可用频谱矩阵相结合产生分配矩阵,对目标函数进行优化,并且使用了一种新的比例公平性目标函数评价该算法的性能;通过仿真比较了本文算法与二进制粒子群优化算法的频谱分配方法的性能,同时在使用电视频段的认知无线电系统进行了验证,结果表明本文算法的高效性和优越性。相似文献

11.

Collaborative multi-agent reinforcement learning based on experience propagation

Min Fang Frans C.A. Groen 《系统工程与电子技术(英文版)》2013,(4):683-689

For multi-agent reinforcement learning in Markov games, knowledge extraction and sharing are key research problems. State list extracting means to calculate the optimal shared state path from state trajectories with cycles. A state list extracting algorithm checks cyclic state lists of a current state in the state trajectory, condensing the optimal action set of the current state. By reinforcing the optimal action selected, the action policy of cyclic states is optimized gradually. The state list extracting is repeatedly learned and used as the experience knowledge which is shared by teams. Agents speed up the rate of convergence by experience sharing. Competition games of preys and predators are used for the experiments. The results of experiments prove that the proposed algorithms overcome the lack of experience in the initial stage, speed up learning and improve the performance. 相似文献

12.

基于核函数强化学习的抗干扰频点分配

江志炜黄洋吴启晖《系统工程与电子技术》2021,43(6):1547-1556

针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的... 相似文献

13.

基于强化学习的异步动态定价算法

王金田唐昊程文娟毕翔《系统工程学报》2011,26(5)

研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF-PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表明,Q学习和WoLF-PHC算法都能较好地解决异步动态定价问题,但由于后者采用混合策略和可变学习率,故能更好地适应环境变化,并具有更好的学习优化效果. 相似文献

14.

Membrane-inspired quantum shuffled frog leaping algorithm for spectrum allocation

Hongyuan Gao Jinlong Cao 《系统工程与电子技术(英文版)》2012,23(5):679-688

To solve discrete optimization difficulty of the spectrum allocation problem,a membrane-inspired quantum shuffled frog leaping(MQSFL) algorithm is proposed.The proposed MQSFL algorithm applies the theory of membrane computing and quantum computing to the shuffled frog leaping algorithm,which is an effective discrete optimization algorithm.Then the proposed MQSFL algorithm is used to solve the spectrum allocation problem of cognitive radio systems.By hybridizing the quantum frog colony optimization and membrane computing,the quantum state and observation state of the quantum frogs can be well evolved within the membrane structure.The novel spectrum allocation algorithm can search the global optimal solution within a reasonable computation time.Simulation results for three utility functions of a cognitive radio system are provided to show that the MQSFL spectrum allocation method is superior to some previous spectrum allocation algorithms based on intelligence computing. 相似文献

15.

基于强化学习的多机协同传感器管理

闫实贺静王跃东孙自强梁彦《系统工程与电子技术》2020,42(8):1726-1733

网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。相似文献

16.

强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例

倪建军刘明华任黎张传标《系统工程理论与实践》2012,32(8):1777-1783

利用研究复杂系统和多主体(multi-agent)建模的相关知识与方法, 将湖泊水环境中的各种实体, 如政府、排污企业以及各种水生生物等抽象为具有一定智能的主体, 建立湖泊水环境智能决策支持系统. 并将强化学习方法应用到智能决策支持系统中, 实现湖泊水污染的智能预测与预警. 最后, 以太湖流域为应用背景, 进行了初步的仿真实验, 实验结果验证了该方法的有效性. 相似文献

17.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2009,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献