期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨兴雨陈亮威郑萧腾张永《系统管理学报》2024,(1):150-161

为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明：将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。相似文献

2.

自主移动机器人中基于强化学习的噪声消解策略

任燚陈宗海《系统仿真学报》2005,17(7):1699-1703

基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声，给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务，以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法，本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响，提高了系统整体性能。相似文献

3.

基于强化学习的战时保障力量调度策略研究

曾斌王睿李厚朴樊旭《系统工程与电子技术》2022,44(1):199-208

智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。相似文献

4.

基于深度强化学习的网络路由优化方法

孟泠宇郭秉礼杨雯张欣伟赵柞青黄善国《系统工程与电子技术》2022,44(7):2311-2318

针对同一网络拓扑下不同网络负载的路由优化问题, 在深度强化学习方法的基础上, 提出了两种依据当前网络流量状态进行路由分配的优化方法。通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对于流量关系分布的网络路由持续训练与优化。在利用深度确定性策略梯度(deep deterministec policy gradient, DDPG)算法解决路由优化问题上进行了提升和改进, 使得该优化方法更适合解决网络路由优化的问题。同时, 设计了一种全新的链路权重构造策略, 利用网络流量构造出用于神经网络输入状态元素, 通过对原始数据的预处理加强了神经网络的学习效率, 大大提升了训练模型的稳定性。并针对高纬度大规模网络的连续动作空间进行了动作空间离散化处理, 有效降低了其动作空间的复杂度, 加快了模型收敛速度。实验结果表明, 所提优化方法可以适应不断变化的流量和链路状态, 增强模型训练的稳定性并提升网络性能。相似文献

5.

基于强化学习的订单生产型企业的订单接受策略

王晓欢王宁宁樊治平《系统工程理论与实践》2014,34(12):3121-3129

针对订单生产型企业在订单接受决策过程中的不确定性, 基于强化学习的思想, 在考虑生产成本、延迟惩罚成本以及拒绝成本的前提下, 引入顾客等级这一要素, 从收益管理的角度建立了基于半马尔可夫决策过程的订单接受模型. 在此基础上, 提出了基于 SMART 算法的最优订单接受策略求解方法, 旨在最大化订单生产型企业的长期利润. 仿真实验结果表明: 基于SMART 算法得到的订单接受策略要优于基于先来先服务方法得到的订单接受策略; 同时, 针对考虑顾客等级的仿真实验及数据分析结果, 也验证了引入顾客等级这一要素的必要性和重要性. 相似文献

6.

深度强化学习及其在军事领域中的应用综述

张梦钰豆亚杰陈子夷姜江杨克巍葛冰峰《系统工程与电子技术》2024,(4):1297-1308

随着大数据、云计算、物联网等一系列新兴技术的大量涌现,人工智能技术不断取得突破性进展。深度强化学习(deep reinforcement learning, DRL)技术作为人工智能的最新成果之一,正被逐渐引入军事领域中,促使军事领域走向信息化和智能化。在未来战争作战模式及军队发展建设中,网络化、信息化、智能化和无人化形成重要特征,已经成为不可逆转的趋势。因此,在回顾了DRL基本原理和主要算法的基础上,对当前DRL在武器装备、网络安全、无人机(unmanned aerial vehicle, UAV)编队、智能决策与博弈等方面的应用现状进行了系统的梳理与总结。最后,针对实际推进DRL技术在军事领域应用落地所面临的一系列问题和挑战,提供了未来进一步研究的思路。相似文献

7.

进化博弈中多代理人强化学习模型 总被引：4，自引：2，他引：4

刘伟兵王先甲《系统工程理论与实践》2009,29(3):28-33

将强化学习引入到进化博弈中,建立了进化博弈中的多代理人强化学习模型,并基于Q-学习给出了算法流程,仿真算例的结果表明多代理人强化学习模型能使得博弈人不断学习、寻求最优策略. 相似文献

8.

基于核函数强化学习的抗干扰频点分配

江志炜黄洋吴启晖《系统工程与电子技术》2021,43(6):1547-1556

针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的... 相似文献

9.

基于模糊神经网络局部强化学习在Robocup中的应用 总被引：2，自引：0，他引：2

吴定会李真纪志成《系统仿真学报》2007,19(16):3719-3723

针对Robocup仿真组比赛中智能体的配合与动作选取,将模糊神经网络（FNN）和局部协调图动态角色分配与传统Q-学习相结合,提出了基于模糊神经网络的局部Q-学习。采用该方法,有效抑制了仿真平台中的噪声干扰,提高了动作选取的精度,解决了传统Q-学习中Q表占用内存空间过大的问题,增强了系统的泛化能力,并进一步缩短了学习时间,更好的满足比赛实时性的要求。将其运用于仿真组比赛的传球和射门模型中,验证了该方法的有效性。相似文献

10.

最小二乘支持向量机在强化学习系统中的应用

WANG Xue-song 田西兰 CHENG Yu-hu 马小平《系统仿真学报》2008,20(14)

将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。相似文献

11.

基于强化学习的全电推进卫星变轨优化方法

韩明仁王玉峰《系统工程与电子技术》2022,44(5):1652-1661

采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit, GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator, GAE)和近端策略优化(proximal policy optimization, PPO)方法相结合,在考虑多种轨道摄动影响以及地球阴影约束的情况下,提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题,提出了动作输出映射和分层奖励等训练加速方法,有效提升了训练效率,加快了收敛速度。数值仿真和结果对比表明,所提方法更加简单、灵活、高效,与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。相似文献

12.

Multi-agent reinforcement learning based on policies of global objective

张化祥黄上腾《系统工程与电子技术(英文版)》2005,16(3)

1 .INTRODUCTIONBecause an agent’s rewardis a function of all agents’joint action, when applying RL[1]to multi-agent do-mains ,some fundamental change should be made .Byadopting single agentQlearning[2]to Markovgames,several algorithms have been proposed,suchas Littman’s mini maxQ-learning( mini max-Q)[3],Hu et al’s NashQ-learning(Nash-Q)[4 ,5], Claus etal’s cooperative multi-agentQ-learning[6], Bowlinget al’s multi-agent learningQ-learning using a vari-able learning rate[7 ~9],… 相似文献

13.

基于强化学习的多机协同传感器管理

闫实贺静王跃东孙自强梁彦《系统工程与电子技术》2020,42(8):1726-1733

网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。相似文献

14.

基于模糊强化学习的双轮机器人姿态平衡控制

闫安陈章董朝阳何康辉《系统工程与电子技术》2021,43(4):1036-1043

针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,... 相似文献

15.

基于强化学习的倒立摆起摆与平衡全过程控制 总被引：4，自引：0，他引：4

张荣陈卫东《系统工程与电子技术》2004,26(1):72-76

倒立摆的控制是一种典型的非线性控制问题。本文的目标是在假设不知道任何倒立摆模型的前提下,采用强化学习控制器实现倒立摆的起摆和平衡的全过程控制。为提高学习效率,采用了任务分解的方法,将整个控制任务分解为起摆和平衡两个子任务,对于不同的子任务根据其特点采用不同的强化学习算法。在Matlab/Simulink上进行仿真实验,结果证明,该方法在合理的时间内可以学习到成功的控制方法。相似文献

16.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2020,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

17.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2009,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

18.

APPLICATION OF HIERARCHICAL REINFORCEMENT LEARNING IN ENGINEERING DOMAIN 总被引：1，自引：0，他引：1

WEI LI Qingtai YE Changming ZHU College of Machine & Dynamics Engineering Shanghai JiaoTong University 《系统科学与系统工程学报(英文版)》2005,14(2):207-217

1.Introduction Reinforcement learning(RL)is the problem of generating optimal actions given the opportunity of interacting with environment(Sutton and Barto1998).The algorithm solving RL is called RL algorithm,which can provide solutions to very large-scale optimal control problems.It has achieved many successful applications in engineering(Mataric1997,Crites and Barto1996,Rajbala and Sridher et al.2001,Mahadevan and Sridher et al.1997,Zhang1996).However,conventional RL system is restr… 相似文献