共查询到20条相似文献,搜索用时 0 毫秒
1.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作. 相似文献
2.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。 相似文献
3.
利用研究复杂系统和多主体(multi-agent)建模的相关知识与方法, 将湖泊水环境中的各种实体, 如政府、排污企业以及各种水生生物等抽象为具有一定智能的主体, 建立湖泊水环境智能决策支持系统. 并将强化学习方法应用到智能决策支持系统中, 实现湖泊水污染的智能预测与预警. 最后, 以太湖流域为应用背景, 进行了初步的仿真实验, 实验结果验证了该方法的有效性. 相似文献
4.
5.
针对单一智能体在导航过程中存在全球导航卫星系统(global navigation satellite system,GNSS)易受遮挡或干扰,惯性导航存在误差累积的问题,提出基于视觉的分层即时定位与地图构建(simultaneous localization and mapping,SLAM)空地多智能体协同算法。通过建立系统模型,采用基于扩展卡尔曼滤波融合欧氏点、逆深度点、锚定同质点3种不同特征点的分层SLAM算法,实现了对导航系统的辅助和增强。针对空地协同场景设计并开展了仿真实验。结果表明,空地多智能体协同算法可以将位置误差降低40%;而在使用锚定同质点以后,误识别率由49%降低至4%。实验验证该算法具有良好的定位精度、实用性和有效性。 相似文献
6.
1 .INTRODUCTIONBecause an agent’s rewardis a function of all agents’joint action, when applying RL[1]to multi-agent do-mains ,some fundamental change should be made .Byadopting single agentQlearning[2]to Markovgames,several algorithms have been proposed,suchas Littman’s mini maxQ-learning( mini max-Q)[3],Hu et al’s NashQ-learning(Nash-Q)[4 ,5], Claus etal’s cooperative multi-agentQ-learning[6], Bowlinget al’s multi-agent learningQ-learning using a vari-able learning rate[7 ~9],… 相似文献
7.
A single-task and multi-decision evolutionary game model based on multi-agent reinforcement learning
In the evolutionary game of the same task for groups,the changes in game rules,personal interests,the crowd size,and external supervision cause uncertain effect... 相似文献
8.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。 相似文献
9.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的... 相似文献
10.
根据对网游产品的采用状况将整个人群划分为三类,分析这三类人群之间交互情况,基于人群关系网络的小世界特性视角,探讨了网游产品扩散问题,进一步建立了一个基于临近关系网络的网游扩散多智能体模型,通过多次仿真实验及参数的敏感性分析,结果表明:广告效应及积极口碑效应对产品扩散起推动作用,消极口碑效应阻碍网游产品扩散;消费者的负面情绪既阻碍了网游产品的扩散,又使得大量重复购买行为产生;网游产品的创新及积极口碑的传播能够保持市场稳定:网游运营企业在网游扩散的不同阶段需要制定相应的管理策略来应对网游扩散中的各种问题. 相似文献
11.
针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,... 相似文献
12.
针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。 相似文献
13.
针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。 相似文献
14.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。 相似文献
15.
The health monitoring for large-scale structures need to resolve a large number of difficulties, such as the data transmission and distributing information handling. To solve these problems, the technology of multi-agent is a good candidate to be used in the field of structural health monitoring. A structural health monitoring system architecture based on multi-agent technology is proposed. The measurement system for aircraft airfoil is designed with FBG, strain gage, and corresponding signal processing circuit. The experiment to determine the location of the concentrate loading on the structure is carried on with the system combined with technologies of pattern recognition and multi-agent. The results show that the system can locate the concentrate loading of the aircraft airfoil at the accuracy of 91.2%. 相似文献
16.
基于强化学习的倒立摆起摆与平衡全过程控制 总被引:4,自引:0,他引:4
倒立摆的控制是一种典型的非线性控制问题。本文的目标是在假设不知道任何倒立摆模型的前提下,采用强化学习控制器实现倒立摆的起摆和平衡的全过程控制。为提高学习效率,采用了任务分解的方法,将整个控制任务分解为起摆和平衡两个子任务,对于不同的子任务根据其特点采用不同的强化学习算法。在Matlab/Simulink上进行仿真实验,结果证明,该方法在合理的时间内可以学习到成功的控制方法。 相似文献
17.
针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题,以三回路驾驶仪极点配置算法为核心,提出一种将三维控制参数转换为一维设计参量的智能训练方法,构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构,在提高深度强化学习算法的效率和奖励函数收敛性同时,确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例,完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高,训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。 相似文献
18.
智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。 相似文献
19.
移动安全Agent扫描各客户主机的漏洞,采集记录异常活动的审计日志,实现事前和事后的安全保障,但移动Agent自身的通信和迁移的安全性同样重要.首先结合硬件特征属性密钥和用户信息,实现基于Agent技术的多因素认证系统,在认证基础上,利用非对称加密技术和密钥管理,保障Agent通信和迁移的安全性.Agent作为软件,容易受到外部破坏,采用检测代理,通过Agent的协作,利用地址解析协议对网内节点的扫描,将广域网扫描机制转化为简单易行的内网扫描,从而保障客户主机中认证Agent的部署可靠性.实验结果表明,该系统效率高,可扩展性、通用性好. 相似文献
20.
基于多Agent系统的计算机生成兵力建模研究 总被引:1,自引:0,他引:1
在计算机生成兵力(computer generated forces,CGF)的研究中,引入了多Agent系统(multi-agentsystems,MAS)理论,并以面向对象Petri网(object-oriented Petri nets,OPN)为基础,建立了一种通用的适合CGF的MAS形式化模型ArmyMAS.ArmyMAS描述了作战实体Agent、管理Agent和配置等三个单元,形象地刻画了CGF的结构与行为特性,同时可以利用Petri网的相关分析方法和工具对模型进行分析和验证.最后利用Ar-myMAS对弹道导弹攻防对抗CGF系统进行建模和分析,验证了该模型的有效性. 相似文献