共查询到18条相似文献,搜索用时 29 毫秒
1.
2.
为了将智能Agent技术架构应用于机场货运业务的仿真模型开发,以机场货运资源优化为目标,提出了将深度强化学习与机场货运业务仿真模型结合的决策支持系统框架,用仿真数据实现对深度学习网络的训练,运用深度学习网络优化模型中的调度方案.训练成熟的系统采取在线模式,可以用于实时优化货运流程的调度方案.为了验证架构的有效性,在An... 相似文献
3.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 相似文献
4.
随着大数据、云计算、物联网等一系列新兴技术的大量涌现,人工智能技术不断取得突破性进展。深度强化学习(deep reinforcement learning, DRL)技术作为人工智能的最新成果之一,正被逐渐引入军事领域中,促使军事领域走向信息化和智能化。在未来战争作战模式及军队发展建设中,网络化、信息化、智能化和无人化形成重要特征,已经成为不可逆转的趋势。因此,在回顾了DRL基本原理和主要算法的基础上,对当前DRL在武器装备、网络安全、无人机(unmanned aerial vehicle, UAV)编队、智能决策与博弈等方面的应用现状进行了系统的梳理与总结。最后,针对实际推进DRL技术在军事领域应用落地所面临的一系列问题和挑战,提供了未来进一步研究的思路。 相似文献
5.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作... 相似文献
6.
针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。 相似文献
7.
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 相似文献
8.
准确预测原油价格一直都是政府管理决策部门、投资主体和学术界关注的重点.然而由于货币政策、地缘政治等多样化风险因素相互作用,原油价格表现出更加复杂的非线性特征,使得原油价格预测面临着前所未有的挑战.本文以INE和WTI原油期货市场为研究对象,通过基于数据分解、强化学习集成策略和误差修正技术构建的原油价格预测模型(PVMD-QSBT-ECS)开展实证研究.首先运用自适应权重的粒子群优化算法(particle swarm optimization, PSO)优化的变分模态分解(variational mode decomposition, VMD)对原油期货价格序列进行分解;然后利用Q学习算法(Q-learning, QL)确定堆叠式长短期记忆网络(stacked bidirectional long short-term memory, SBiLSTM)、双向门控循环单元(bidirectional gated recurrent unit, BiGRU)和时域卷积网络(temporal convolutional network, TCN)的最优权重组合以构建集成预测模型,而后对预测结果... 相似文献
9.
针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。 相似文献
10.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。 相似文献
11.
针对长期演进车辆(long term evolution-vehicle, LTE-V)下的车辆随机竞争接入网络容易造成网络拥塞的问题,提出基于深度强化学习(deep reinforcement learning,DRL)为LTE-V下的车辆接入最佳基站(evolved node B,eNB)的选择算法。使用LTE核心网中移动管理单元(mobility management entity,MME)作为代理,同时考虑网络侧负载与接收端接收速率,完成车辆与eNB的匹配问题,降低网络拥塞概率,减少网络时延。使用竞争双重深度Q网络(dueling-double deep Q-network,D-DDQN)来拟合目标动作-估值函数(action-value function,AVF),完成高维状态输入低维动作输出的转化。仿真表明,D-DDQN训练完成参数收敛后,LTE-V网络拥塞概率大幅下降,整体性能有较大提升。 相似文献
12.
针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。 相似文献
13.
针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题,以三回路驾驶仪极点配置算法为核心,提出一种将三维控制参数转换为一维设计参量的智能训练方法,构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构,在提高深度强化学习算法的效率和奖励函数收敛性同时,确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例,完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高,训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。 相似文献
14.
海战场是未来大国冲突的主阵地之一, 强大的海战场目标搜寻能力是执行海上训练和作战的最后一道屏障, 同时也因其复杂多变的环境和重要战略地位成为战场联合搜救中最艰难最核心的部分。面向海战场目标搜寻的存活时间短、实时性要求高等特点, 提出一种基于深度强化学习的海战场目标搜寻规划方法。首先, 构建了海战场目标搜寻场景数学规划模型, 并将其映射为一种强化学习模型; 然后, 基于Rainbow深度强化学习算法, 设计了海战场目标搜寻规划的状态向量、神经网络结构以及算法框架与流程。最后, 用一个案例, 验证了所提方法的可行性与有效性, 与常规应用的平行搜寻模式相比大大提高了搜寻成功率。 相似文献
15.
针对由卫星光网络拓扑动态变化、业务多样化和负载不均引起的路由收敛慢和波长利用率低的问题, 提出了一种基于深度强化学习的卫星光网络波长路由分配方法。基于软件定义中轨/低轨(medium earth orbit/low earth orbit, MEO/LEO)双层卫星网络架构, 利用深度强化学习算法动态感知网络当前的业务负载和链路状况, 构造基于时延、波长利用率和丢包率的奖励函数进行选路决策。为了解决单跳链路对整个光路的影响, 引入链路瓶颈因子, 搜索符合服务质量(quality of service, QoS)约束的最优路径。研究结果表明, 与传统卫星网络分布式路由(satellite network distributed routing algorithm, SDRA)算法和Q-routing算法相比, 所提算法降低了网络的时延、丢包率, 提高了波长利用率, 同时也降低了高优先级业务的阻塞率。 相似文献
16.
Equipment development planning(EDP) is usually a long-term process often performed in an environment with high uncertainty. The traditional multi-stage dynamic programming cannot cope with this kind of uncertainty with unpredictable situations. To deal with this problem, a multi-stage EDP model based on a deep reinforcement learning(DRL) algorithm is proposed to respond quickly to any environmental changes within a reasonable range. Firstly, the basic problem of multi-stage EDP is described, and... 相似文献
17.
To solve the path following control problem for unmanned surface vehicles(USVs), a control method based on deep reinforcement learning(DRL) with long short-term memory(LSTM) networks is proposed. A distributed proximal policy optimization(DPPO) algorithm, which is a modified actor-criticbased type of reinforcement learning algorithm, is adapted to improve the controller performance in repeated trials. The LSTM network structure is introduced to solve the strong temporal correlation USV control p... 相似文献
18.
在生产制造过程中, 设备状态的衰变会影响产品质量, 导致成品率水平的逐渐下降. 本文研究此类具有多成品率水平的衰变设备预防维修问题. 建立隐马氏决策过程模型, 在成品率水平不可直接获知的情况下, 用产品质检信息作为系统观测状态进行维修决策. 模型考虑两类质检误差及收益和成本参数, 通过强化学习算法, 学习各观测状态下的最优维修行动. 针对不同的设备衰变模式和质检误差水平, 进行算例分析, 结果显示基于强化学习的预防维修策略与传统的固定周期的维修策略相比, 能够很大程度上提高系统的平均收益. 相似文献