期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于强化学习的倒立摆起摆与平衡全过程控制 总被引：4，自引：0，他引：4

张荣陈卫东《系统工程与电子技术》2004,26(1):72-76

倒立摆的控制是一种典型的非线性控制问题。本文的目标是在假设不知道任何倒立摆模型的前提下,采用强化学习控制器实现倒立摆的起摆和平衡的全过程控制。为提高学习效率,采用了任务分解的方法,将整个控制任务分解为起摆和平衡两个子任务,对于不同的子任务根据其特点采用不同的强化学习算法。在Matlab/Simulink上进行仿真实验,结果证明,该方法在合理的时间内可以学习到成功的控制方法。相似文献

2.

基于模糊强化学习的双轮机器人姿态平衡控制

闫安陈章董朝阳何康辉《系统工程与电子技术》2021,43(4):1036-1043

针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,... 相似文献

3.

基于深度强化学习的驾驶仪参数快速整定方法

万齐天卢宝刚赵雅心温求遒《系统工程与电子技术》2022,44(10):3190-3199

针对深度强化学习方法对驾驶仪控制参数训练速度慢、奖励函数收敛性不好等问题,以三回路驾驶仪极点配置算法为核心,提出一种将三维控制参数转换为一维设计参量的智能训练方法,构建离线深度强化学习训练叠加在线多层感知器神经网络实时计算的智能控制架构,在提高深度强化学习算法的效率和奖励函数收敛性同时,确保在大范围飞行状态变化条件下控制参数的快速在线自整定。以典型再入飞行器为例,完成深度强化学习训练和神经网络部署。仿真结果表明,强化学习动作空间简化后的训练效率更高,训练得到的驾驶仪对控制指令的跟踪误差在1.2%以内。相似文献

4.

基于多智能体强化学习的动态频谱分配方法综述

宋波叶伟孟祥辉《系统工程与电子技术》2021,43(11):3338-3351

认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。相似文献

5.

强化学习中的策略重用:研究进展

何立沈亮李辉王壮唐文泉《系统工程与电子技术》2022,(3):884-899

策略重用(policy reuse,PR)作为一种迁移学习(transfer learning,TL)方法,通过利用任务之间的内在联系,将过去学习到的经验、知识用于加速学习当前的目标任务,不仅能够在很大程度上解决传统强化学习(reinforcement learning,RL)收敛速度慢、资源消耗大等问题,而且避免了在... 相似文献

6.

基于强化学习的多机协同传感器管理

闫实贺静王跃东孙自强梁彦《系统工程与电子技术》2020,42(8):1726-1733

网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。相似文献

7.

基于核函数强化学习的抗干扰频点分配

江志炜黄洋吴启晖《系统工程与电子技术》2021,43(6):1547-1556

针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的... 相似文献

8.

Multi-agent reinforcement learning based on policies of global objective

张化祥黄上腾《系统工程与电子技术(英文版)》2005,16(3)

1 .INTRODUCTIONBecause an agent’s rewardis a function of all agents’joint action, when applying RL[1]to multi-agent do-mains ,some fundamental change should be made .Byadopting single agentQlearning[2]to Markovgames,several algorithms have been proposed,suchas Littman’s mini maxQ-learning( mini max-Q)[3],Hu et al’s NashQ-learning(Nash-Q)[4 ,5], Claus etal’s cooperative multi-agentQ-learning[6], Bowlinget al’s multi-agent learningQ-learning using a vari-able learning rate[7 ~9],… 相似文献

9.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2009,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

10.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2020,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

11.

基于强化学习的战时保障力量调度策略研究

曾斌王睿李厚朴樊旭《系统工程与电子技术》2022,44(1):199-208

智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。相似文献

12.

基于多智能体强化学习的多机器人协作策略研究

段勇徐心和《系统工程理论与实践》2014,34(5):1305-1310

研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作. 相似文献

13.

基于深度强化学习的网络路由优化方法

孟泠宇郭秉礼杨雯张欣伟赵柞青黄善国《系统工程与电子技术》2022,44(7):2311-2318

针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。相似文献

14.

基于广义模糊CMAC的强化学习算法

沈智鹏郭晨《系统工程与电子技术》2004,26(9):1262-1266

针对传统的小脑模型,提出了一种广义模糊小脑模型神经网络(GFCMAC)。它采用模糊隶属度函数作为接收域函数,可以获得较常规CMAC连续性强且有解析微分的复杂函数近似,具有计算量少,学习效率高等优点。研究了GFCMAC接收域函数的映射方法、隶属度函数及其参数的选取规律和学习算法。结合强化学习,提出了一种基于GFCAMC的强化学习算法,讨论了其实现过程。应用于船舶航向控制的仿真结果表明,在有各种风浪干扰下,船舶航向跟踪快且操舵动作合理,适合船舶转向控制要求。相似文献

15.

军事系统工程中的知识图谱应用及研究

马玉凤向南豆亚杰姜江杨克巍谭跃进《系统工程与电子技术》2022,44(1):146-153

目前随着通用知识图谱构建技术的发展、自然语言处理技术的进步以及各个行业挖掘数据深层关系的需要, 军事同电商、金融证券、医疗等行业一样, 也需要构建属于自己领域的知识图谱。通过定义军事知识图谱以及明确军事知识图谱使用时的特殊性, 总结了构建过程中的难点, 介绍了当前构建军事知识图谱的思路以及使用的技术手段, 汇总了军事领域应用知识图谱的现状。最后, 给出了知识图谱最新的研究进展, 并针对军事领域知识图谱中一部分未解决的困难问题提供了一种可能的解决思路。相似文献

16.

基于强化学习的多成品率衰变设备预防维修策略

杨智祁超《系统工程理论与实践》2013,33(7):1647-1653

在生产制造过程中, 设备状态的衰变会影响产品质量, 导致成品率水平的逐渐下降. 本文研究此类具有多成品率水平的衰变设备预防维修问题. 建立隐马氏决策过程模型, 在成品率水平不可直接获知的情况下, 用产品质检信息作为系统观测状态进行维修决策. 模型考虑两类质检误差及收益和成本参数, 通过强化学习算法, 学习各观测状态下的最优维修行动. 针对不同的设备衰变模式和质检误差水平, 进行算例分析, 结果显示基于强化学习的预防维修策略与传统的固定周期的维修策略相比, 能够很大程度上提高系统的平均收益. 相似文献

17.

一种电梯群控多目标调度方法 总被引：4，自引：0，他引：4

宗群岳有军尚晓光雷小锋《系统工程理论与实践》2001,21(11):129-133

针对电梯群控系统层间交通模式下用户对电梯需求多样化的特点 ,提出了一种适用于繁重层间交通模式的多目标调度方法 ,并采用遗传算法动态优化电梯调度方案 .仿真实验表明这种电梯调度方法是有效的. 相似文献

18.

基于深度强化学习的海战场目标搜寻路径规划

杨清清高盈盈郭玙夏博远杨克巍《系统工程与电子技术》2022,44(11):3486-3495

海战场是未来大国冲突的主阵地之一, 强大的海战场目标搜寻能力是执行海上训练和作战的最后一道屏障, 同时也因其复杂多变的环境和重要战略地位成为战场联合搜救中最艰难最核心的部分。面向海战场目标搜寻的存活时间短、实时性要求高等特点, 提出一种基于深度强化学习的海战场目标搜寻规划方法。首先, 构建了海战场目标搜寻场景数学规划模型, 并将其映射为一种强化学习模型; 然后, 基于Rainbow深度强化学习算法, 设计了海战场目标搜寻规划的状态向量、神经网络结构以及算法框架与流程。最后, 用一个案例, 验证了所提方法的可行性与有效性, 与常规应用的平行搜寻模式相比大大提高了搜寻成功率。相似文献

19.

Reinforcement learning for mobile robot:fromreaction to deliberation

陈春林陈宗海《系统工程与电子技术(英文版)》2005,16(3)

1 .INTRODUCTIONAutonomous mobilerobotics has beena veryi mportant re-searcharea in artificial intelligence and control theory fordecades. Researchers have developed series of methodolo-giesto build mobile robots withself-learning and adaptivecontrol capabilities,rangingfromdeliberative model-basedto purelyreactive paradigms.But nostrongsuccesses havebeen achieved yet . For there are three main difficulties:(1) We cannot programeverything for the robot ,espe-cially in an unknown environmen… 相似文献

20.

基于强化学习的全电推进卫星变轨优化方法

韩明仁王玉峰《系统工程与电子技术》2022,44(5):1652-1661

采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit, GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator, GAE)和近端策略优化(proximal policy optimization, PPO)方法相结合,在考虑多种轨道摄动影响以及地球阴影约束的情况下,提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题,提出了动作输出映射和分层奖励等训练加速方法,有效提升了训练效率,加快了收敛速度。数值仿真和结果对比表明,所提方法更加简单、灵活、高效,与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。相似文献