期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《沈阳师范大学学报(自然科学版)》2020,(3)

针对系统状态和控制均依赖于噪声的随机线性离散时间系统,采用基于值迭代的Q学习迭代算法求解模型参数部分未知的有限时间随机线性二次(SLQ)最优控制问题。首先给出SLQ最优控制问题可达性条件和适应性条件,并通过矩阵拉格朗日乘子算法得到最优控制增益矩阵序列以及相应的随机代数Riccati方程(SARE)。其次,以值迭代算法为基础定义Q函数,利用Q学习迭代算法获得每个最优控制增益矩阵所对应的迭代控制增益矩阵序列和H矩阵序列。该算法依赖于系统状态信息,摆脱了系统模型参数部分未知的限制,并证明控制增益矩阵序列收敛到各自的最优控制增益矩阵,H矩阵序列收敛到各自的最优H矩阵。最后通过一个仿真实例说明了Q学习迭代算法的有效性。相似文献

2.

模型未知非零和博弈问题的策略迭代算法

杨明罗艳红王义贺《东北大学学报(自然科学版)》2015,36(3):318-322

提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性. 相似文献

3.

近似动态规划算法在病房分配上的应用

《天津理工大学学报》2017,(6):5-11

若特护病房床位满且有新病人到达时,医生可以采取拒绝新病人进入病房或释放原病房内的病人接收新病人的策略,两种策略均会产生相应成本.本文建立了一个有限状态空间,并在此空间上定义偏序.为了选取一个最优决策序列使得总期望成本函数值最小,提出近似动态规划算法,并证明算法几乎处处收敛到最优成本函数.并利用最优成本函数在状态空间上的单调性加快算法收敛速度.从而为特护病房的医生提供一个近似最优的决策序列,在实际问题中,该算法可以得到广泛应用. 相似文献

4.

基于启发式动态规划的盾构土压平衡优化控制

刘宣宇许胜张凯举曹雨濛《大连理工大学学报》2018,58(5):526-532

为了避免盾构施工造成地表变形而引发安全事故,建立有效的密封舱土压平衡自动控制方法是至关重要的.为此,提出了一种新的基于启发式动态规划(heuristic dynamic programming,HDP)的盾构土压平衡优化控制方法,该方法能够实现盾构机多参数实时协调优化控制.基于神经网络,构建组成密封舱土压HDP控制器的执行网络、模型网络和评价网络,采用梯度下降算法对网络权值进行在线训练;利用评价网络迭代逼近密封舱土压优化控制代价函数,将多级优化问题简化为单级优化,从而显著降低实时计算负荷;执行网络以最小化代价函数为目标,对多参数同步协调优化,获得推进速度、刀盘扭矩、总推力、螺旋输送机转速的最优值.仿真结果表明,该方法能够有效控制密封舱土压平衡,HDP控制器具有较强的抗干扰能力,并且控制过程更加快速、稳定. 相似文献

5.

非线性稳定解析系统最优控制的迭代法

刘国华朱经浩《同济大学学报(自然科学版)》2013,41(12):1898-1902

本文研究非线性稳定解析系统的最优控制问题. 推广线性稳定系统最优控制的Kleimman迭代法, 构造非线性稳定反馈控制序列, 使得相应的评价泛涵序列单调下降和一致收敛, 并证明非线性稳定反馈控制序列一致收敛到非线性最优控制问题的最优反馈控制. 同时,建立一个待定幂级数算法, 计算迭代序列,逼近非线性最优控制问题的最优反馈控制, 并给出一个例子加以演示. 相似文献

6.

基于执行依赖启发式动态规划的紧急电压控制

冯小峰刘明波《华南理工大学学报(自然科学版)》2014,(4)

针对长期电压稳定场景,应用执行依赖启发式动态规划方法设计紧急电压控制器,协调各种不同类型的控制手段来维持系统的长期电压稳定.利用每个控制周期节点的电压偏差二次型构建效用函数,对未来控制时间的效用函数累加建立代价函数,建立长期电压稳定控制的动态规划模型,采用BP神经网络建立评价网络和执行网络,根据Bellman最优化原理来训练评价网络,用于近似出代价函数,并由执行网络产生最优控制量,进而求解问题.最后,以新英格兰10机39节点系统为例,建立基于PSAT的仿真算例,结果表明所提的控制方案可行且有效. 相似文献

7.

有限时间收敛控制与时间最优控制性能指标分析

程丽丽武玉强《曲阜师范大学学报》2007,33(3):19-24

讨论了有限时间收敛控制与时间最优控制问题，分析了有限时间收敛控制及时间最优控制各项性能指标，探讨利用有限时间收敛控制的方法通过选择适当的控制及参数，求解最优控制的近似解.最后利用二阶及三阶系统举例具体说明了分析结果. 相似文献

8.

时滞系统终端时间参数优化控制

下载免费PDF全文

柴琴琴林双杰林琼斌《福州大学学报(自然科学版)》2016,44(6):779-783

针对时滞系统终端时间优化控制问题,提出一种基于参数化的数值求解方法.首先将优化控制向量用分段常数函数来近似;然后引入时间转换方法将未知切换时间点和未知终端时间映射到新时间域的固定时间点上,从而将原未知时域的时间最优控制问题近似为固定时域的非线性规划问题;最后采用全联通粒子群算法求解.资源再生系统优化控制问题的仿真结果表明所提方法是有效的. 相似文献

9.

终端受限的线性-非二次最优控制问题 总被引：3，自引：0，他引：3

罗金火潘立平《复旦学报(自然科学版)》2003,42(2):124-134

该文研究一类(输出)终端受限的线性—非二次最优控制问题，在系统输出能控、目标泛函(是依赖于控制函数与相应的输出函数的泛函且)在一定程度上可以不定等条件下用一列终端不受限(因而易于求解)的线性。非二次最优控制问题作为原终端受限问题的近似，建立起很强的收敛性结果——近似问题的最优控制(函数)列与最优值数列分别一致收敛与收敛到原问题的最优控制(函数)与最优值．相似文献

10.

一般时滞系统最优控制的逐步优化方法

张焕水宋信敏谢立华《山东大学学报(理学版)》2011,46(10):45-56

上世纪60年代以来,借助于动态规划,无时滞系统的最优控制已经得到了很好的解决,然而,经典的动态规划没有像无时滞系统中逐步导出控制器一样,成功地应用于时滞系统。在本文中,针对一般时滞系统的最优控制问题,通过引入一对偶的倒向随机系统并应用内积理论,将提出一个逐步优化算法。借助于该方法,我们可以逐步对线性二次型（LQ）进行完全平方,进而得到控制器的解析解。有趣的是,时滞系统的控制器设计等价于对偶的倒向随机时滞系统不同信号的估计器设计。所提出的一般方法是行之有效的,因为借助于此方法,我们可以将时滞系统的最优控制从确定整个控制序列旋即变为逐一确定序列的元。可以相信所给出的逐步优化算法也可以用于解决其他相关的复杂控制问题,如控制问题解的充要条件等。相似文献

11.

基于自适应动态规划的四旋翼无人机分布式最优协调控制

池文浩高强吉月辉《科学技术与工程》2020,20(31):12890-12896

为了提高四旋翼无人机编队的自适应能力,通过自适应动态规划(Adaptive Dynamic Programming)方法研究四旋翼无人机编队分布式最优协调控制问题。将该算法引入到分布式协调控制器的设计中,既避免了冗余数据的传输,又使各无人机的性能函数最小化。基于模糊双曲模型的评价神经网络(Critic Neural Network) 逼近值函数,以实现控制策略的设计。闭环系统稳定性证明权值估计误差和局部邻域协调误差是一致最终有界的。最后,进行了有向切换通信拓扑下的四旋翼编队仿真实例,结果表明了该算法的有效性。相似文献

12.

分布式HDP领导-跟随者系统最优一致控制研究

韩琦曹瑞翁腾飞陈国荣王慧《重庆邮电大学学报(自然科学版)》2022,34(2):365-372

为研究行为未知的非线性多智能体系统领导-跟随者最优一致控制问题,针对智能体动态方程未知的情况,设计神经网络辨识器学习智能体动力学行为;构造以多智能体系统局部误差为输入的性能指标函数,将多智能体系统领导-跟随者一致性问题转换为求解智能体局部性能指标函数最优值的优化控制问题;结合自适应动态规划思想设计分布式迭代算法求解该优化问题,并讨论了算法的收敛性;设计基于神经网络的评价-执行结构分布式控制器来近似局部性能指标函数,通过神经网络学习迭代寻找局部性能指标函数的最优解,实现多智能体系统的最优一致控制策略。设计的分布式控制器能够根据智能体状态数据自适应产生控制策略,使多智能体系统趋于一致。相似文献

13.

神经网络动态规划在溶解氧控制中的应用

薄迎春李来鸿马善鹏夏伯锴《中国石油大学学报(自然科学版)》2013,37(1):177-182

针对污水处理过程溶解氧质量浓度控制问题,提出一种基于神经网络动态规划的控制器设计方法.该方法不需要建立污水处理过程的非线性动力学模型,控制器的设计只需要系统的输入、输出观测信息.控制器设计采用评价—行动的思想,策略的评价值及最优行动分别采用两个回声状态网络逼近,给出评价网络的收敛条件.对污水处理过程溶解氧的控制试验结果表明,与常规PID控制相比,神经网络动态规划控制器能够有效提高控制精度,抑制干扰能力也明显增强. 相似文献

14.

Approximate optimal control for a class of nonlinear discrete-time systems with saturating actuators 总被引：1，自引：0，他引：1

Yanhong Luo Huaguang Zhang 《自然科学进展(英文版)》2008,18(8):1023-1030

In this paper, we solve the approximate optimal control problem for a class of nonlinear discrete-time systems with saturating actuators via greedy iterative Heuristic Dynamic Programming （GI-HDP） algorithm. In order to deal with the saturating problem of actuators, a novel nonquadratic functional is developed. Based on the nonquadratic functional, the GI-HDP algorithm is introduced to obtain the optimal saturated controller with a rigorous convergence analysis. For facilitating the implementation of the iterative algorithm, three neural networks are used to approximate the value function, compute the optimal control policy and model the unknown plant, respectively. An example is given to demonstrate the validity of the proposed optimal control scheme. 相似文献

15.

三维水平井轨道设计最优控制模型改进的进化规划方法

钱伟懿冯恩民宫召华汪颖《中国石油大学学报(自然科学版)》2003,27(6)

针对三维水平井井眼轨道设计问题 ,建立了一个非线性最优控制模型。该模型以设计轨道总长度最短为性能指标 ,以非线性动力系统为约束条件 ,通过对非线性动力系统积分 ,将最优控制模型转化为一个非线性规划问题求解。为了求非线性规划问题的全局最优解 ,在附加一个目标函数小于当前目标函数值的约束条件下 ,用改进的进化规划方法寻找新的可行点策略 ,提出了一种新算法。将非线性最优控制模型及算法应用到实际水平井轨道设计中 ,数值结果证明了该模型及算法的正确性和有效性相似文献

16.

一种在线自适应控制马氏链的强化学习算法 总被引：2，自引：2，他引：0

胡光华胡光涛《云南大学学报(自然科学版)》2000,22(1):9-12

讨论平均准则控制马氏链的强化学习算法。目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略,由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法,通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略。行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略。评判器用来估计这些参数以找出最优控制策略。相似文献

17.

基于状态集结的值函数逼近

胡光华刘英敏《北京理工大学学报》2000,20(3):304-308

用更为紧凑的方法表示和存贮值函数,以求解大规模平均模型Ｍａｒｋｏｖ决策规划（ＭＤＰ）问题。通过状态集结相对值迭代算法逼近值函数,用Ｓｐａｎ半范数和压缩映原理分析算法的收敛性。给出了状态集结后的Ｂｅｌｌｍａｎ最优方程。在Ｓｐａｎ压缩条件下了该算法的收敛性,同时还给出了其误差估计。相似文献

18.

受约束时间最优控制问题罚函数法收敛性分析 总被引：2，自引：0，他引：2

曾进任庆生《上海交通大学学报》2001,35(7):1103-1104

通过罚函数方法,受约束时间最优控制问题的求解可转化为对带罚函数的无约束最优控制问题的求解.文中证明当罚因子趋于无穷大时,用罚函数构造的无约束最优控制问题的解收敛于原来受约束时间最优控制问题的解,从而为用罚函数方法求解受约束时间最优控制问题提供理论保证. 相似文献

19.

基于动态延迟策略更新的TD3 算法

康朝海孙超荣垂霆刘鹏云《吉林大学学报(信息科学版)》2008,38(4):474-481

在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约 1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。相似文献