共查询到20条相似文献,搜索用时 15 毫秒
1.
未来天基信息网络(space information network, SIN)领域将面临由结构复杂、环境动态、业务多样等发展趋势带来的挑战。数据驱动的深度强化学习(deep reinforcement learning, DRL)作为一种应对上述挑战的可行思路被引入SIN领域。首先简要介绍了DRL的基本方法,并全面回顾了其在SIN领域的研究进展。随后,以星地网络场景的中继选择为例,针对大规模节点问题提出了基于平均场的DRL算法,并提出一种基于微调的模型迁移机制,用以解决仿真环境与真实环境之间的数据差异问题。仿真证明了其对网络性能优化的效果,且计算复杂度和时间效率均具有可行性。在此基础上归纳和总结了DRL方法在SIN领域的局限性与面临的挑战。最后,结合强化学习前沿进展,讨论了此领域未来的努力方向。 相似文献
2.
3.
针对无人机(unmanned aerial vehicle, UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。 相似文献
4.
5.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。 相似文献
6.
7.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 相似文献
8.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 相似文献
9.
针对边缘计算下车联网中时延约束型计算任务的卸载执行问题,提出一种基于深度强化学习的任务调度方法。在多边缘服务器场景下,构建软件定义网络辅助的车联网任务卸载系统,给出车辆计算卸载的任务调度模型;根据任务调度的特点,设计一种基于改进指针网络的调度方法,综合考虑任务调度和计算资源分配的复杂性,采用深度强化学习算法对指针网络进行训练;运用训练好的指针网络对车辆卸载任务进行调度。仿真结果表明:在边缘服务器计算资源相同的情况下,该方法在处理时延约束型计算任务的数量方面优于其他方法,有效提高了车联网任务卸载系统的服务能力。 相似文献
10.
为提升无人机在复杂空战场景中的存活率,基于公开无人机空战博弈仿真平台,使用强化学习方法生成机动策略,以深度双Q网络(double deep Q-network, DDQN)和深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法为基础,提出单元状态序列(unit state sequence, USS),并采用门控循环单元(gated recurrent unit, GRU)融合USS中的态势特征,增加复杂空战场景下的状态特征识别能力和算法收敛能力。实验结果表明,智能体在面对采用标准比例导引算法的导弹攻击时,取得了98%的规避导弹存活率,使无人机在多发导弹同时攻击的复杂场景中,也能够取得88%的存活率,对比传统的简单机动模式,无人机的存活率大幅提高。 相似文献
11.
针对由卫星光网络拓扑动态变化、业务多样化和负载不均引起的路由收敛慢和波长利用率低的问题, 提出了一种基于深度强化学习的卫星光网络波长路由分配方法。基于软件定义中轨/低轨(medium earth orbit/low earth orbit, MEO/LEO)双层卫星网络架构, 利用深度强化学习算法动态感知网络当前的业务负载和链路状况, 构造基于时延、波长利用率和丢包率的奖励函数进行选路决策。为了解决单跳链路对整个光路的影响, 引入链路瓶颈因子, 搜索符合服务质量(quality of service, QoS)约束的最优路径。研究结果表明, 与传统卫星网络分布式路由(satellite network distributed routing algorithm, SDRA)算法和Q-routing算法相比, 所提算法降低了网络的时延、丢包率, 提高了波长利用率, 同时也降低了高优先级业务的阻塞率。 相似文献
12.
为了将智能Agent技术架构应用于机场货运业务的仿真模型开发,以机场货运资源优化为目标,提出了将深度强化学习与机场货运业务仿真模型结合的决策支持系统框架,用仿真数据实现对深度学习网络的训练,运用深度学习网络优化模型中的调度方案.训练成熟的系统采取在线模式,可以用于实时优化货运流程的调度方案.为了验证架构的有效性,在An... 相似文献
13.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。 相似文献
14.
基于径向基函数网络的强化学习在机器人足球中的研究 总被引:2,自引:1,他引:1
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。 相似文献
15.
海战场是未来大国冲突的主阵地之一, 强大的海战场目标搜寻能力是执行海上训练和作战的最后一道屏障, 同时也因其复杂多变的环境和重要战略地位成为战场联合搜救中最艰难最核心的部分。面向海战场目标搜寻的存活时间短、实时性要求高等特点, 提出一种基于深度强化学习的海战场目标搜寻规划方法。首先, 构建了海战场目标搜寻场景数学规划模型, 并将其映射为一种强化学习模型; 然后, 基于Rainbow深度强化学习算法, 设计了海战场目标搜寻规划的状态向量、神经网络结构以及算法框架与流程。最后, 用一个案例, 验证了所提方法的可行性与有效性, 与常规应用的平行搜寻模式相比大大提高了搜寻成功率。 相似文献
16.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。 相似文献
17.
针对长期演进车辆(long term evolution-vehicle, LTE-V)下的车辆随机竞争接入网络容易造成网络拥塞的问题,提出基于深度强化学习(deep reinforcement learning,DRL)为LTE-V下的车辆接入最佳基站(evolved node B,eNB)的选择算法。使用LTE核心网中移动管理单元(mobility management entity,MME)作为代理,同时考虑网络侧负载与接收端接收速率,完成车辆与eNB的匹配问题,降低网络拥塞概率,减少网络时延。使用竞争双重深度Q网络(dueling-double deep Q-network,D-DDQN)来拟合目标动作-估值函数(action-value function,AVF),完成高维状态输入低维动作输出的转化。仿真表明,D-DDQN训练完成参数收敛后,LTE-V网络拥塞概率大幅下降,整体性能有较大提升。 相似文献
18.
基于深度随机博弈的近距空战机动决策 总被引:1,自引:0,他引:1
针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法.首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型.其次,利用深度Q网络(deep Q network,DQN)处理战机的连续无限状态空间.然后,使用Minimax算... 相似文献
19.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作... 相似文献