共查询到16条相似文献,搜索用时 60 毫秒
1.
针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。 相似文献
2.
海战场是未来大国冲突的主阵地之一, 强大的海战场目标搜寻能力是执行海上训练和作战的最后一道屏障, 同时也因其复杂多变的环境和重要战略地位成为战场联合搜救中最艰难最核心的部分。面向海战场目标搜寻的存活时间短、实时性要求高等特点, 提出一种基于深度强化学习的海战场目标搜寻规划方法。首先, 构建了海战场目标搜寻场景数学规划模型, 并将其映射为一种强化学习模型; 然后, 基于Rainbow深度强化学习算法, 设计了海战场目标搜寻规划的状态向量、神经网络结构以及算法框架与流程。最后, 用一个案例, 验证了所提方法的可行性与有效性, 与常规应用的平行搜寻模式相比大大提高了搜寻成功率。 相似文献
3.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。 相似文献
4.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 相似文献
5.
应急响应一般涉及多个部门,各参与部门需要通过合理的协调方法规划应对方案,协同使用应急资源是不同部门间应急行动方案制定的关键.为处理规划过程实时产生的资源冲突,文章提出了基于层次任务网络(hierarchical task network,HTN)的多部门分布式协作任务规划框架,将规划方案行动的生成过程作为需要考虑的协作问题,并通过协作过程与规划过程的嵌套,减少规划无效方案而提高协作效率.其次,探究并设计处理重用性资源的协调机制,使用多种优先级判断规则消解资源使用冲突.进一步,在建立的协作框架和资源协调机制的基础上,提出基于HTN的协作规划算法.最后通过实验案例说明了应急资源协作规划方法的应用,并对本方法的有效性和相对于原有方法的效率优势进行了验证. 相似文献
6.
7.
8.
针对边缘计算下车联网中时延约束型计算任务的卸载执行问题,提出一种基于深度强化学习的任务调度方法。在多边缘服务器场景下,构建软件定义网络辅助的车联网任务卸载系统,给出车辆计算卸载的任务调度模型;根据任务调度的特点,设计一种基于改进指针网络的调度方法,综合考虑任务调度和计算资源分配的复杂性,采用深度强化学习算法对指针网络进行训练;运用训练好的指针网络对车辆卸载任务进行调度。仿真结果表明:在边缘服务器计算资源相同的情况下,该方法在处理时延约束型计算任务的数量方面优于其他方法,有效提高了车联网任务卸载系统的服务能力。 相似文献
9.
为了将视觉信息融入到机器人导航过程中,提高机器人对各类障碍物的识别率,减少危险事件的发生,设计了基于二维CNN及LSTM的局部路径规划网络。提出了基于深度学习的局部路径规划方案。利用机器人视觉信息及全局路径信息推理产生机器人在当前时刻完成避障导航任务所需转向角度;搭建了用于对规划器核心神经网络进行训练和验证的室内场景;提出了以路径总长度、平均曲率变化率及机器人与障碍物之间的距离为性能指标的路径评估方案。实验表明:该方案在仿真环境及真实场景中均体现了较优秀的局部路径生成能力。 相似文献
10.
针对由卫星光网络拓扑动态变化、业务多样化和负载不均引起的路由收敛慢和波长利用率低的问题, 提出了一种基于深度强化学习的卫星光网络波长路由分配方法。基于软件定义中轨/低轨(medium earth orbit/low earth orbit, MEO/LEO)双层卫星网络架构, 利用深度强化学习算法动态感知网络当前的业务负载和链路状况, 构造基于时延、波长利用率和丢包率的奖励函数进行选路决策。为了解决单跳链路对整个光路的影响, 引入链路瓶颈因子, 搜索符合服务质量(quality of service, QoS)约束的最优路径。研究结果表明, 与传统卫星网络分布式路由(satellite network distributed routing algorithm, SDRA)算法和Q-routing算法相比, 所提算法降低了网络的时延、丢包率, 提高了波长利用率, 同时也降低了高优先级业务的阻塞率。 相似文献
11.
针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题,以三回路驾驶仪极点配置算法为核心,提出一种将三维控制参数转换为一维设计参量的智能训练方法,构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构,在提高深度强化学习算法的效率和奖励函数收敛性同时,确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例,完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高,训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。 相似文献
12.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。 相似文献
13.
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A*算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A*算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。 相似文献
14.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作. 相似文献
15.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。 相似文献
16.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的... 相似文献