首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 140 毫秒
1.
针对由卫星光网络拓扑动态变化、业务多样化和负载不均引起的路由收敛慢和波长利用率低的问题, 提出了一种基于深度强化学习的卫星光网络波长路由分配方法。基于软件定义中轨/低轨(medium earth orbit/low earth orbit, MEO/LEO)双层卫星网络架构, 利用深度强化学习算法动态感知网络当前的业务负载和链路状况, 构造基于时延、波长利用率和丢包率的奖励函数进行选路决策。为了解决单跳链路对整个光路的影响, 引入链路瓶颈因子, 搜索符合服务质量(quality of service, QoS)约束的最优路径。研究结果表明, 与传统卫星网络分布式路由(satellite network distributed routing algorithm, SDRA)算法和Q-routing算法相比, 所提算法降低了网络的时延、丢包率, 提高了波长利用率, 同时也降低了高优先级业务的阻塞率。  相似文献   

2.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作...  相似文献   

3.
真实-虚拟-构造为近距空战对抗训练提供了有力支撑。针对课题对蓝方虚拟实体的实际决策建模需求, 在对比分析深度强化学习与经典智能优化方法的基础上, 从优化理论的角度对神经网络的权值空间和结构空间进行定义, 提出基于智能优化的进化神经网络决策模型及其求解方法。首先,分析近距空战战术特点, 战机飞行运动模型, 实际决策建模需求。其次,分别设计战机关键飞行状态、动作空间、适应度函数, 实现蓝方端到端感知与决策。最后, 给出基于经典遗传神经网络的决策模型及求解示例。结果表明, 所提方法可实现蓝方战机通过对抗数据来学习对手作战特点的功能, 验证了模型及方法的有效性; 同时所提方法对目前智能优化及其改进算法, 以及不同结构神经网络具有通用性。  相似文献   

4.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。  相似文献   

5.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。  相似文献   

6.
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A*算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A*算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。  相似文献   

7.
针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题,以三回路驾驶仪极点配置算法为核心,提出一种将三维控制参数转换为一维设计参量的智能训练方法,构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构,在提高深度强化学习算法的效率和奖励函数收敛性同时,确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例,完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高,训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。  相似文献   

8.
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训练数据。通过对网络进行充分训练,得到优化调度策略。将网络接入地铁站行人流实时运行数据,实现实时优化管控。仿真实验表明:引入的深度强化学习框架可以实现在线优化,调度结果优于传统方法。  相似文献   

9.
在5G网络数据流量剧增的背景下,针对5G网络流量负载均衡问题提出并评估了两种基于软件定义网络驱动的路由搜索优化算法。首先,建立了软件定义网络多约束数据传输路径选择模型;然后,针对所提模型提出了一种流量负载均衡广度优先搜索(load balancing scheme with breadth-first-search, LBB)路径优化算法,在广度优先搜索的过程中,设定一个动态流量阈值对链路进行实时监测,旨在寻找源节点到目标节点的最优数据传输路径。为了减少甚至避免不必要的搜索所造成的空间开销,进一步提出了基于深度优先搜索的迭代深化搜索(iterative deepening search with depth first search, IDDFS)路径优化算法,该算法限制了数据传输路径的每次搜索深度,并在搜索过程中优先选择可用带宽最大的链路进行深度优先搜索迭代优化。仿真结果表明了所提算法在资源利用率和网络吞吐量这两项关键性能指标上的优越性能。  相似文献   

10.
在脉冲信道下,针对置信传播(belief propagation, BP)算法对短码长的低密度奇偶校验(low-density parity-check, LDPC)码译码性能差的问题,提出了一种基于深度学习的BP译码方法。首先,根据Tanner图构建两种深度神经网络模型,通过对Tanner图中边的权重重新赋值来提升译码性能。然后,简化信道对数似然比(log-likelihood ratio, LLR)的计算方法,通过模型训练优化近似计算参数,得到对参数γ鲁棒的译码模型。最后,构造鲁棒训练集,训练得到对参数αγ鲁棒的译码模型。仿真结果表明,在高码率时,该方法相对于传统BP译码算法性能显著提升,且在近似计算信道LLR值时,译码性能在不同参数的脉冲信道下均具有鲁棒性。  相似文献   

11.
针对气动舵受限下的弹性高超声速飞行器控制问题, 提出一种基于神经自适应的智能控制方案。在速度子系统的设计过程中, 为了降低对模型参数的依赖程度, 应用强化学习算法在线调整比例积分微分(proportional integral derivative, PID)控制参数, 给出智能PID控制策略。对于高度子系统, 考虑气动舵的动态特性, 利用神经自适应方法对模型未知函数及不确定项进行逼近。为了处理气动舵的约束问题, 以非线性模型预测控制为优化分配模板生成大量样本数据集, 经离线训练得到深度神经网络代替求解复杂优化问题和控制分配的过程。此外, 通过引入自适应超螺旋微分器处理外部扰动, 增强了系统的鲁棒性。利用Lyapunov方法证明了所设计控制器的稳定性, 并通过仿真验证了所设计控制方案能够快速计算控制指令, 实现高精度跟踪控制。  相似文献   

12.
基于深度随机博弈的近距空战机动决策   总被引:1,自引:0,他引:1  
针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法.首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型.其次,利用深度Q网络(deep Q network,DQN)处理战机的连续无限状态空间.然后,使用Minimax算...  相似文献   

13.
海战场是未来大国冲突的主阵地之一, 强大的海战场目标搜寻能力是执行海上训练和作战的最后一道屏障, 同时也因其复杂多变的环境和重要战略地位成为战场联合搜救中最艰难最核心的部分。面向海战场目标搜寻的存活时间短、实时性要求高等特点, 提出一种基于深度强化学习的海战场目标搜寻规划方法。首先, 构建了海战场目标搜寻场景数学规划模型, 并将其映射为一种强化学习模型; 然后, 基于Rainbow深度强化学习算法, 设计了海战场目标搜寻规划的状态向量、神经网络结构以及算法框架与流程。最后, 用一个案例, 验证了所提方法的可行性与有效性, 与常规应用的平行搜寻模式相比大大提高了搜寻成功率。  相似文献   

14.
采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit, GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator, GAE)和近端策略优化(proximal policy optimization, PPO)方法相结合,在考虑多种轨道摄动影响以及地球阴影约束的情况下,提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题,提出了动作输出映射和分层奖励等训练加速方法,有效提升了训练效率,加快了收敛速度。数值仿真和结果对比表明,所提方法更加简单、灵活、高效,与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号