期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Reinforcement learning for mobile robot:fromreaction to deliberation

陈春林陈宗海《系统工程与电子技术(英文版)》2005,16(3)

1 .INTRODUCTIONAutonomous mobilerobotics has beena veryi mportant re-searcharea in artificial intelligence and control theory fordecades. Researchers have developed series of methodolo-giesto build mobile robots withself-learning and adaptivecontrol capabilities,rangingfromdeliberative model-basedto purelyreactive paradigms.But nostrongsuccesses havebeen achieved yet . For there are three main difficulties:(1) We cannot programeverything for the robot ,espe-cially in an unknown environmen… 相似文献

2.

基于先验知识的多功能雷达智能干扰决策方法

朱霸坤朱卫纲李伟杨莹高天昊《系统工程与电子技术》2022,44(12):3685-3695

针对基于强化学习的多功能雷达干扰决策方法训练周期长、收敛慢的问题，本文提出了基于先验知识的多功能雷达智能干扰决策算法。所提算法使用了基于势能函数的收益塑造理论，利用先验知识设置收益函数，相比于传统算法，具有更快的收敛速率。利用先验知识加速算法收敛速率的方法对强化学习在多功能雷达干扰决策中的实际应用具有重要的意义，对于强化学习在其他领域的应用也具有很好的参考价值。相似文献

3.

知识牵引与数据驱动的兵棋AI设计及关键技术

程恺陈刚余晓晗刘满邵天浩《系统工程与电子技术》2021,43(10):2911-2917

在分析知识推理型与数据学习型兵棋人工智能(artifical intelligence, AI)优缺点的基础上, 提出了基于知识牵引与数据驱动的AI设计框架。针对框架中涉及的基于数据补全的战场态势感知,基于遗传模糊系统的关键点推理,基于层次任务网的任务规划、计划修复与重规划,基于深度强化学习的算子动作策略优化等关键技术进行深入探讨。结果表明,所提框架具有较强的适应性, 不仅能够满足分队、群队、人机混合等兵棋推演的应用需求, 而且适用于解决一般回合制或即时策略性的博弈对抗问题。相似文献

4.

基于强化学习的机器人模糊控制系统设计

段勇刘兴刚徐心和《系统仿真学报》2006,18(6):1597-1600

研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,从而有效地解决了复杂未知环境的机器人导航问题。实验结果表明,由强化学习设计的模糊控制器的有效性,同时具有较强的适应能力,可以应用于不同的复杂环境。相似文献

5.

可变先验贝叶斯学习稀疏SAR成像

沈笑云廖仙华孙卫天夏亚波杨磊《系统工程与电子技术》2021,43(7):1781-1790

针对合成孔径雷达(synthetic aperture radar, SAR)在稀疏成像中, 传统贝叶斯机器学习算法存在先验固化、成像结果容易过拟合等问题。提出一种可变成像先验贝叶斯(varying imaging prior Bayes, VIP-Bayes)学习稀疏SAR成像算法。首先, 引入可动态灵活表征目标散射特征的广义高斯分布先验。然后,在贝叶斯推理框架下进行分层建模, 后验分布推导。最后, 针对常规吉布斯采样算法无法采样复杂后验分布的问题, 引入哈密顿蒙特卡罗(Hamiltonian Monte Carlo, HMC)采样算法进行求解。另外, 考虑到HMC算法对非平滑后验分布无法采样,因此引入近端算子, 进行近端梯度近似, 提出近端-HMC(proximal-HMC, P-HMC)算法。P-HMC算法可有效解决非平滑后验采样问题。因而可实现VIP-Bayes稀疏成像。通过仿真数据进行算法有效性验证, 选取SAR实测数据与多种算法进行成像对比实验, 利用相变热力图对算法成像性能进行定量分析,验证了所提算法的实用性和优越性。相似文献

6.

基于平均报酬强化学习的电梯群组调度研究

宗群孙正雅宋超峰《系统仿真学报》2007,19(21):4945-4948

针对电梯群控系统,建立基于平均报酬强化学习的优化调度模型。采用R-learning的平均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行验证。通过与两种典型的电梯群组调度算法进行比较,展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机序贯决策问题的有效性及可行性。相似文献

7.

结合先验知识的Bayesian优化算法研究与仿真

武燕王宇平刘小雄《系统仿真学报》2008,20(20):5526-5529

由于一般优化问题的先验知识很难获取,因此在Bayesian网络学习中结合与利用先验知识一直是一个很难突破的问题.针对Bayesian优化算法(BOA)的特点,对一般优化问题如何发现和利用先验知识进行了分析讨论,把BOA中前一代种群所提供的信息作为先验知识结合到当前代Bayesian网络的学习中,提高了所学习网络的可靠性,从而提高算法的性能.仿真结果表明所提算法比传统BOA具有更强的全局寻优能力. 相似文献

8.

递阶稳态优化下非线性大工业过程的迭代学习控制 总被引：1，自引：0，他引：1

阮小娥万百五《系统工程理论与实践》2002,22(6):16-20

对递阶稳态优化下非线性大工业过程施行迭代学习控制 ,目的是进一步改善大工业过程的动态品质 .建立迭代学习控制的基本结构 ,提出迭代学习控制算法关于控制系统的ε-收敛性和期望目标轨线的δ -可达性的概念 ,对具有死区与滞后的饱和非线性大工业过程控制系统给出加权超前开环PD-型迭代学习算法 .利用 Bellman-Gronwall不等式和λ范数理论 ,论证了算法的收敛性 .数字仿真表明 ,迭代学习控制能有效改善递阶稳态下非线性大工业控制系统的动态品质 . 相似文献

9.

基于先验知识和神经网络的非线性建模与预测控制 总被引：6，自引：2，他引：4

薛福珍柏洁《系统仿真学报》2004,16(5):1057-1059,1063

神经网络模型是模拟非线性系统的有力工具，它的缺陷是难以利用已有的先验知识。利用通用学习网络的建模方法，提出了一种利用先验知识和神经网络建立非线性系统模型的方法，具有简化神经网络结构、减小计算量的优点。基于这种模型利用改进的遗传算法进行优化计算，从而实现了基于先验知识和神经网络的非线性建模和预测控制。对一个悬吊系统的仿真实验说明了该算法的有效性。相似文献

10.

开环可重入排队网络的递阶增强型学习调度

王利存郑应平《系统工程理论与实践》2002,22(5):76-80

对平均费用型马氏决策过程 ,研究了一种递阶增强型学习算法 ;并将算法应用于一个两台机器组成的开环可重入生产系统 ,计算机仿真结果表明 ,调度结果优于熟知的启发式调度策略. 相似文献

11.

基于模糊强化学习的双轮机器人姿态平衡控制

闫安陈章董朝阳何康辉《系统工程与电子技术》2021,43(4):1036-1043

针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题, 提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法。首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型。然后, 在此基础上设计表格型强化学习算法, 实现机器人的稳定平衡控制。最后,针对算法存在的控制精度不高和控制器输出离散等问题, 采用模糊理论泛化动作空间, 改善控制精度, 并使控制输出连续。仿真实验表明, 相较于传统强化学习方法, 所提方法能够显著提高控制精度, 且可以有效抑制外界干扰力矩对系统的影响, 保证系统具有一定的抗干扰能力。相似文献

12.

任意初始状态下非正则系统的迭代学习控制设计 总被引：2，自引：0，他引：2

王毅敏方勇《系统工程与电子技术》2004,26(3):364-367

迭代学习控制已广泛应用于各种机器人控制系统,但目前的方法大多数都假设系统具有零初始误差。在实际工程应用中,迭代学习的初始状态往往会发生漂移,现有的学习算法不能正确地使用。针对具有非零初始误差的非正则线性离散系统,研究了其迭代学习算法,提出了两种新型的初始状态的学习方法,利用2 D系统理论,对迭代学习进行了2 D分析,以保证所提出算法的稳定性。由于不需要假设系统初始误差为零,该算法更符合工程实际,仿真验证了算法的有效性。相似文献

13.

面向应用领域的知识系统建模及实现 总被引：1，自引：0，他引：1

朱欣娟薛惠锋《系统工程与电子技术》2004,26(6):747-750

针对知识系统建模过程中不同类型知识的组织、表示、控制和实现等问题,将用户需求作为重要的切入点,通过对用户的需求分析和分解将知识系统数据结构划分为领域概念知识(概念本体)、领域系统知识(方法本体)、需求分解知识(需求本体)、知识系统控制知识和解释知识5大部分,建立了各部分的数据结构,明确了相互之间的关系。提出了基于层次案例规划(hierarchicalcase basedplanning,HCBP)的需求本体建立检索及面向目标的黑板控制结构和改进算法。实例测试表明,该方法不仅有利于不同类型知识块的重用,而且提高了系统的执行效率,大大缩短了知识系统的开发周期。相似文献

14.

智能学习技术及其应用 总被引：1，自引：0，他引：1

魏林林陈建安《系统工程与电子技术》1999,(2)

本文按三种学习方式：有导师学习、无导师学习和加强学习的次序，分别概述了在这些学习方式下各种学习算法和学习系统中所采用的学习技术、方法及其应用。通过智能学习技术的研究使我们了解目前学习技术的主要研究内容、应用和发展方向。相似文献

15.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2009,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

16.

基于深度强化学习的应急通信网络规划方法

殷昌盛杨若鹏朱巍邹小飞《系统工程与电子技术》2020,42(9):2091-2097

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。相似文献

17.

基于多智能体强化学习的动态频谱分配方法综述

宋波叶伟孟祥辉《系统工程与电子技术》2021,43(11):3338-3351

认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。相似文献

18.

一类非线性参数化系统的自适应学习控制 总被引：2，自引：0，他引：2

孙云平李俊民王元亮《系统工程与电子技术》2008,30(12)

针对控制增益是未知时变的并含有混合未知参数的非线性参数化系统,利用将整个区间分段与反馈线性化相结合,提出了一种新的自适应学习控制方法。该方法可以处理参数在一个未知紧集内周期性快时变的非线性系统。通过引进新颖的微分-差分混合型参数自适应律,使广义跟踪误差在误差平方范数意义下渐近收敛于零。通过构造Lyapunov泛函,给出了广义跟踪误差收敛的充分条件。实例仿真结果说明了该方法的可行性和有效性。相似文献

19.

基于模拟退火-强化学习算法的船舶运动控制

叶光郭晨《系统仿真学报》2006,18(5):1278-1282

船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵自身的不确定性,以及干扰或仪器测量误差情况下,精确的训练数据不容易得到的缺陷。最终的仿真结果表明,当存在风浪干扰海况下,船舶航向的控制仍能取得令人满意的效果。相似文献

20.

基于径向基函数网络的强化学习在机器人足球中的研究 总被引：2，自引：1，他引：1

罗青李智军 Iqbal Nadeem 吕恬生《系统仿真学报》2002,14(8):1094-1097

与监督学习从范例中学习的方式不同，强化学习不需要先验知识，而是具有从经验中学习的能力，将强化学习应用在大状态空间中，必须应用函数逼近的方法，如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。相似文献