首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。  相似文献   

2.
为解决传统再入飞行器轨迹制导方法对强扰动条件适应性不足,难以满足终端约束的问题,在深度确定性策略梯度学习框架基础上,通过对随机强扰动条件下的离线飞行轨迹进行网络训练,寻找不同环境影响条件下的最优动作网络,以用于在线干扰条件下的制导轨迹规划,可通过对再入飞行攻角和倾侧角剖面的周期性预测,满足再入飞行终端高度、航程和速度约束。仿真实验结果表明:在满足终端高度约束的条件下,最大终端剩余航程偏差小于500 m,最大终端速度偏差小于35 m/s。本文所提制导方法较传统跟踪制导方法有较大的精度提升,算法计算量小,具有较好的工程应用前景。  相似文献   

3.
针对多智能体系统在处理复杂任务时存在的低效率、高冗积、多智能体系统内协同模型算法存在交互冲突、资源损耗过高等问题,提出一种基于复杂任务的多智能体系统优化算法.在差分进化算法与局部优化算法的基础上对二者进行优化,结合强化学习的训练框架,构建训练网络,通过对学习步长进行修订,改变种群迭代优化准则,使得种群在计算力充足的情况...  相似文献   

4.
针对无人机(unmanned aerial vehicle, UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。  相似文献   

5.
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A*算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A*算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。  相似文献   

6.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

7.
针对资源受限项目调度问题,以最小化项目完成时间为目标,设计基于深度学习的调度优先规则实时动态选择算法,在每个调度阶段实时选择优先规则进行活动安排.通过构建深度神经网络模型,确定已调度项目在各阶段的项目状态与最佳优先规则之间的映射关系,再据此为待调度项目实时动态选择优先规则,结合串行调度机制生成最终调度计划.实验研究表明:实时动态选择优先规则算法表现优于文中所涉及的单一优先规则算法及混合优先规则算法,且具有更好的泛化性;此外,与元启发式算法相比该算法具有更高的求解效率.  相似文献   

8.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。  相似文献   

9.
现阶段,团队认知、自然决策方法和协作理论方面的研究是人工智能方面的热点问题,然而在将自然决策方法应用到多智能体的协作决策方面还需要进行大量的工作.该研究的目的是建立作战仿真中的协作决策模型,在对Klein的RPD模型进行了修改的基础上,提出了协作的SRPD模型,它能够支持多智能体系统态势感知的统一,并能将感知简化和提炼为多智能体的协作决策服务,并将该模型引入到作战仿真多智能体系统中建立了基于协作SRPD模型的多智能体体系.实验表明内核为协作SRPD模型的兵力主体能够对战场环境自主反应,并能够进行协作决策来协调统一团队的行为.  相似文献   

10.
针对当前地理多智能体建模存在着计算成本高、配置复杂、运算加速性能不高的问题,以杜能模型为例,提出基于GPU并行技术的一类地理多智能体仿真与优化方法。通过构建空间索引网格的方法,动态维持智能体与空间索引网格的关联关系,提高地理多智能体系统的仿真运行效率。研究结果表明:采用GPU并行技术,能够使多智能体系统的运行性能得到明显提升,对开展大规模数据下的空间系统多智能体仿真建模具有重要意义。  相似文献   

11.
A lot of routing algorithms have been proposed for low earth orbit(LEO) satellite IP networks in recent years,but most of them cannot achieve global optimization.The dynamic characters of LEO satellite networks are reflected in two aspects:topology and traffic change.The algorithms mentioned above are hard routing which only realize local optimization.A distributed soft routing algorithm combined with multi-agent system(MASSR) is proposed.In MASSR,mobile agents are used to gather routing information activel...  相似文献   

12.
联盟生成是多Agent系统的一个关键问题,主要研究如何在多Agent系统中动态生成面向任务的最优Agent联盟.引入历史任务集和系统经验集的概念,使用任务相似度来判断任务间的关系.提出了一种基于任务匹配的联盟生成策略,增强了Agent的学习能力,对于任务序列可以有效的求解全局最优联盟.对比实验表明本策略可以有效减少联盟生成的搜索时间和计算量.  相似文献   

13.
战争是典型的复杂适应系统,基于Agent的仿真是分析复杂系统的一种新方法。围绕基于Agent的作战仿真环境,利用信息熵理论建立了战场知识表示的数学模型,依据此模型分析了信息协作和共享带来的知识增益。最后通过仿真分析了战场知识和兵力损耗之间的关系,验证了信息共享效能评估模型的有效性。  相似文献   

14.
张梅  文静华  张祖勋  张剑清 《系统仿真学报》2007,19(24):5726-5730,5735
提出将多智能体技术集成到虚拟地理环境(VGE)中,以有效地虚拟表达面向“人”GIS。主要研究VGE中基于遗传算法(GA)和多智能体系统(MAS)的多用户之间的协作。分析和研究了基于GA的多用户集体操作行为学习的算法,建立多智能体与对象之间动态交互的动力学作用模型和运动策略;最后以进化的3个智能体如何协作完成群体推立方体箱任务为例,基于V-Realm Builder 2.0设计了VGE中3用户集体推箱的虚拟世界原型,并用Simulink 6.0进行建模与虚拟演示。  相似文献   

15.
针对难以建立精确数学模型的地面站数传系统,提出改进梯度迭代学习的径向基神经网络建模方法。改进梯度学习算法通过训练样本相关性矩阵的主成分分析确定网络隐含层初始节点数;改进迭代过程中网络参数的梯度信息计算方式,加快了迭代收敛速度;并增加结构调整过程,实现对网络规模的精简。通过采集地面站数传系统输入-输出数据,将改进梯度学习算法应用于网络离线训练,并给出具体实现步骤。地面站数传资源配置优化实例验证了模型具有较高泛化能力,且算法稳定性较佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号