首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 226 毫秒
1.
基于Q-network强化学习的超视距空战机动决策   总被引:3,自引:0,他引:3       下载免费PDF全文
考虑到空空导弹对空战胜负的重要影响,针对空战态势状态特征连续、多维的情况以及传统方法缺乏对空战对抗中敌方策略的考虑,将强化学习应用到1vs1超视距空战机动决策。首先,建立了同时为对抗双方进行机动决策的强化学习框架,提出ε-纳什均衡策略来选取机动动作,并通过导弹攻击区优势函数来修正奖赏函数;其次,基于记忆库和目标网络训练Q-network,形成超视距空战机动决策的"价值网络";最后,设计了Q-network强化学习决策模型,并将机动决策过程分为了学习阶段与实战阶段。仿真结果表明:智能体可以感知空战的态势并作出合理的超视距空战机动决策。  相似文献   

2.
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。  相似文献   

3.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高.  相似文献   

4.
为提升终端区飞行轨迹预测精度,实现航空器短时冲突预警,建立一种基于孪生支持向量回归的终端区4D飞行轨迹预测模型。对历史飞行轨迹应用重采样算法,降低轨迹数据规模;利用墨卡托投影将轨迹点经度、纬度与高度化为x-y-z坐标,采用孪生支持向量回归算法学习预测模型,实现短时航空器飞行轨迹动态预测;计算两架航空器水平、垂直距离,建立航空器冲突预警指示函数;对孪生支持向量回归算法进行超参数灵敏度分析,分析各超参数对模型预测效果的影响。根据机场真实数据进行仿真实验,证明:基于孪生支持向量回归的4D飞行轨迹预测模型能够准确捕捉航空器运动趋势,且泛化能力强;所提模型x-y-z坐标预测均方根误差是BP神经网络预测结果的32%,35%和61%,单次预测计算用时减少约0.13 s。  相似文献   

5.
针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地探索未知环境,为后续的训练过程提供足够的环境状态信息.在学习轨迹层,将探索轨迹层的训练结果作为“先验知识”用于该层训练,提高训练效率.在路径规划层,利用智能体之前获得的skill来完成路径规划任务.通过仿真对比MES-HRL与SNN-HRL算法在不同环境下的性能表现,仿真结果显示,MES-HRL算法解决了传统算法的探索问题,具有更出色的路径规划能力.  相似文献   

6.
基于监视数据修正的航空器飞行轨迹推算模型   总被引:1,自引:1,他引:0  
飞行轨迹推算是空中交通流量管理的一个重要研究内容。在传统飞行轨迹推算方法基础上,针对航空器飞行路径的不确定性,构造了基于监视数据动态修正的航空器飞行轨迹推算模型。该模型综合航空器飞行性能和飞行计划、实时监视信息对航空器飞行轨迹、姿态进行推算。利用真实飞行轨迹进行验证,结果表明:本文模型推算的位置、高度信息更接近实际轨迹,并且符合实际飞行原则和空域使用规则,具有一定的参考价值和实用性。  相似文献   

7.
为了缓解终端区空域拥堵和降低航空器运行风险,提出一种基于反向神经网络(BP)的航空器飞行轨迹预测模型。首先,对航空器历史数据进行筛选和降噪处理,得到基准轨迹;其次,建立基于Hausdorff距离的轨迹相似性矩阵,采用模糊C-均值聚类(FCM)对所有轨迹进行自动分类;最后,综合考虑飞行轨迹的三维位置、速度和航向特征,利用BP神经网络对轨迹特征进行训练学习,建立飞行轨迹预测模型,用于对未来时刻的短期飞行轨迹多维特征进行预测。试验结果表明:该网络模型预测误差小、预测效果好,可以更加准确地进行航空器的飞行轨迹预测。  相似文献   

8.
针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法.为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数.为增强控制器的鲁棒性,生成轨迹任务数据集来模拟复杂的任务环境,以此作为深度强化学习控制器的训练样本输入.仿真结果表明:所提出的算法能有效收敛,具备扰动环境下的精确跟踪控制能力,有较大的实际应用潜力.  相似文献   

9.
针对多无人机任务规划问题,在多种约束与机动动作下,进行目标分配和突防决策统一建模与优化求解方法研究。首先,基于无人机自身优势、目标威胁以及突防概率分别建立目标分配优化函数和突防决策优化函数;然后,利用线性加权法将两者融合,形成多无人机协同任务规划统一目标函数;其次,在强化学习框架下,分阶段构建协同任务规划的状态空间和动作空间,并根据统一目标函数设计奖励函数;提出一种改进的蒙特卡洛树搜索强化学习算法,在统一目标函数最大收益下实现对无人机目标分配和突防决策问题的求解;最后,通过对比仿真实验验证所提出的方法的时效性和最优性。研究结果表明:相较于传统方法,所提出的方法在提升收敛程度的同时,将训练时间减少了15%。  相似文献   

10.
再入滑翔飞行器的机动模式辨识问题是拦截方实现对其轨迹预测的关键。提出了一组与飞行器轨迹机动特点贴合的特征参数,根据构建的RGV 机动模式轨迹库,搭建了LSTM 深度学习神经网络,实现了对RGV机动模式的智能辨识。与传统模式辨识方法和其他典型特征参数的辨识网络进行对比,结果显示文中所提特征参数在LSTM 机动模式辨识网络训练中具有收敛速度快、辨识精度高和鲁棒性好的特点。  相似文献   

11.
为了实现水下机器人在跟踪复杂轨迹时具有出较高的精度和稳定性,提出了利用深度强化学习实现水下机器人最优轨迹控制的方法:首先,建立基于2个深度神经网络(Actor网络和Critic网络)的水下机器人控制模型,其中Actor网络用来选择动作,Critic网络用来评估Actor网络的训练结果;其次,构造合适的奖励信号使得深度强化学习算法适用于水下机器人的动力学模型;最后,提出了基于奖励信号标准差的网络训练成功评判条件,使得水下机器人在确保精度的同时保证稳定性. 仿真实验结果表明:在解决一定精度内的水下机器人复杂轨迹跟踪问题时,该算法与传统PID控制算法相比具有更优的性能.  相似文献   

12.
近距空战中环境复杂、格斗态势高速变化,基于对策理论的方法因数据迭代量大而不能满足实时性要求,基于数据驱动的方法存在训练时间长、执行效率低的问题。对此,提出了一种基于深度强化学习算法的UCAV近距空战机动决策方法。首先,在UCAV三自由度模型的基础上构建飞行驱动模块,形成状态转移更新机制;然后在近端策略优化算法的基础上加入Ornstein-Uhlenbeck随机噪声以提高UCAV对未知状态空间的探索能力,结合长短时记忆网络(LSTM)增强对序列样本数据的学习能力,提升算法的训练效率和效果。最后通过设计3组近距空战仿真实验,并与PPO算法作性能对比,验证所提方法的有效性和优越性。  相似文献   

13.
基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果.  相似文献   

14.
提出一种结合深度特征与美学特征的图像增强方法.首先,结合多种图像特征重构智能体评估网络,该网络通过拼接图像语义特征、图像色彩特征及历史动作信息输出当前策略.其次,感知奖励模型通过预训练分类模型激活层网络提取深层特征,使用余弦距离获得图像间的深度感知距离;利用美学模型获得图像间的概率距离.最后,结合两方面的距离表示并将其用于奖励模型构造中.在MIT-Adobe FiveK数据集上的实验结果表明,本色彩增强方法在结构相似度和平均均方误差上优于其他基线算法,模型场景适用性强.生成图像在保留更多的细节信息的同时,可以有效增强图像色彩.  相似文献   

15.
为了解决高移动性导致卫星网络路由难以计算的问题,融合图神经网络和深度强化学习,提出一种基于深度图强化学习的低轨卫星网络动态路由算法。考虑卫星网络拓扑和卫星间链路的可用带宽、传播时延等约束,构建卫星网络状态,通过图神经网络对其进行表示学习;根据此状态的图神经网络表示,深度强化学习智能体选择相应的决策动作,使卫星网络长期平均吞吐量达到最大并保证平均时延最小。仿真结果表明,所提算法在保证较小时延的同时,还能提升卫星网络吞吐量和降低丢包率。此外,图神经网络强大的泛化能力使所提算法具有更好的抗毁性能。  相似文献   

16.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

17.
针对数据链飞机模拟器中飞行平台轨迹的终端实时显示问题,以飞机动力学运动方程为基础,构建了盘旋机动和斤斗机动过程的轨迹方程,并给出了机动动作设计的一般流程。通过建立基于时间戳的自适应交互多模(AIMM)时延补偿模型,使飞机动作显示与实际作战网络负载下的飞机状态保持同步。最后设定2种机动动作场景,对飞行机动轨迹予以演示,验证了所设计的可视化平台能有效模拟飞机进行盘旋和斤斗机动,实现了地面指挥所对模拟飞机飞行状态的实时监视,为空战仿真模拟训练奠定基础。  相似文献   

18.
为解决软件定义网络(SDN)中的流量工程(TE)问题,提出了一种深度强化学习路由(DRL-Routing)算法.该算法使用较全面的网络信息来表示状态,并使用一对多的网络配置来进行路由选择,奖励函数可以调整往返路径的网络吞吐量.仿真结果表明,DRL-Routing可以获得更高的奖励,并且经过适当的训练后,能使各交换机之间获得更优的路由策略,从而增大了网络吞吐量,降低了网络延迟和数据丢包率.  相似文献   

19.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号