首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
卫星姿态再励学习的模糊神经控制   总被引:2,自引:3,他引:2  
将再励学习的模糊神经控制引入卫星姿态控制中,给出详尽的实现方法,推导了模糊神经控制器的自学习算法.直接利用再励信号,对控制器的参数进行在线调节,不需要控制器的学习样本.仿真结果表明该控制算法能有效地克服卫星的不确定性,具有较强的鲁棒性,可实现较高精度的卫星姿态控制.  相似文献   

2.
基于Q-学习的卫星姿态在线模糊神经网络控制   总被引:1,自引:0,他引:1  
将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,结合Q-学习和BP神经网络来解决模糊神经网络参数在线调整问题,在无需训练样本的前提下实现控制器的在线学习. 仿真结果表明,这种基于Q-学习的模糊神经网络控制不仅可以满足对姿态控制精度的要求,还有效地抵制了外界干扰,提高了姿态稳定度,对卫星的不确定性有较强的鲁棒性.  相似文献   

3.
电液位置伺服系统的再励学习控制研究   总被引:14,自引:3,他引:14  
针对非线性电液位置伺服系统的不确定性控制问题,提出了一种带有小脑模型(CMAC)神经网络的再励学习控制方法。将CMAC神经网络融入再励学习控制结构中,并进行了撞化与改进杯仅使再励学习控制器具备了泛化能力,而且提高了其学习速度,因此竽电液位置伺 服系统的快速跟踪控制。仿真结果表明,控制器不仅具有良好的处理非线性能力而且对时变外扰支具有明显的抑制作用。  相似文献   

4.
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习. 仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性.  相似文献   

5.
一类再励学习控制器设计及其在倒车模型中的应用   总被引:1,自引:0,他引:1  
考虑到神经网络学习算法的特点,给出了一种基于再励学习的自组织模糊CPN,它结合了自组织模糊CPN和再励算法的优点,在控制过程中在线调整网络结构以及对网络参数学习,学习效率高,控制结构简单.可以不要求受控对象的学习模型,实现在线控制,应用在倒车模型中仿真结果展示了所设计系统的良好控制性能.  相似文献   

6.
针对复杂再励学习系统状态空间存在维数灾问题,结合多移动机器人协调避障路径规划实际应用,用非均匀模糊分割方法将状态空间分解成模糊子空间,相应地将小脑模型连接控制器网络(Cerebellar Model Articulation Controller,CMAC)函数逼近器改进为模糊CMAC(Fuzzy CMAC,FCMAC)函数逼近器,并将FCMAC函数逼近器置入滞后更新多步Q(Pstphoned-Updating Multi-Stp Q-learning,PUMSQ)学习笮算法,提出FCMAC-PUMSQ学习算法,仿真实验证明,该算法有效且有较好的鲁棒性,FCMAC函数逼近器有较好的收敛速度和泛化能力。  相似文献   

7.
关于Agent个体的机器学习一直是Agent研究的一个重要方面,本文对再励学习中的Q学习算法做了简单介绍,然后在一个基于Agent的机器人足球赛平台上将Q学习算法引入,并进行了对比实验。  相似文献   

8.
针对解决对传统的多A gen t再励学习算法中,A gen t只能独立学习、不能合作学习的问题和启发式算法中只考虑了单个A gen t而没有推广到多A gen t的情况,给出了对称和非对称环境下的基于启发式的多A gen t再励学习算法。该算法基于A gen t之间的通信来获取其它A gen t的历史信息,以及动作选择策略,结合启发式算法思想,达到A gen t在学习过程中的合作的目的,最终提高学习的效率。以2个A gen t的2个状态3个动作选择为例,表明该算法的收敛速度高于传统分布式再励学习算法的收敛速度。  相似文献   

9.
再励学习是一种利用评价信息(而不是网络实际输出与期望输出之差)来改善行为的神经模糊算法,采用"奖""罚"信号训练控制器.用再励学习的目的建立一个可调的模糊交通信号控制器,它能在不同交通情况下修改隶属函数参数,以达到较好的控制效果.其评价指标是车辆延误.仿真结果表明,再励学习在交通量稳定的交叉口信号控制中表现良好.  相似文献   

10.
研究了基于Zadeh蕴涵的重心法模糊系统及其泛逼近性问题.对于Zadeh蕴涵来说,用通常的"单点模糊化"方法所构造的模糊系统不具有泛逼近性.针对这一问题,应用"参数单点模糊化"方法,重新构造了基于Zadeh蕴涵的重心法模糊系统.证明了该重心法模糊系统具有泛逼近性,并给出了这种模糊系统具有泛逼近性的充分条件.  相似文献   

11.
针对T-S模糊系统的终端控制问题,提出了一种基于正交多项式的迭代学习算法.该算法把待求控制量表示为一组正交多项式的线性组合,将求控制量问题转化为求正交多项式系数问题.在此基础上,用迭代学习的方式来修正控制量的正交多项式系数,并采用LMI方法求解学习增益矩阵.最后,以单关节机器人为例说明了所提算法的有效性.  相似文献   

12.
为了解决广义T-S模糊控制系统稳定性和模糊控制器设计问题,利用模糊Lyapunov方法得出了自由系统新的稳定性充分条件,该条件具有更大的宽松性;同时基于一系列线性矩阵不等式(LMI)设计了模糊控制器,该矩阵不等式可以利用凸优化技术来进行解决;把所有子系统的系数放到一个矩阵中综合考虑,放松了控制系统的稳定条件。  相似文献   

13.
针对未知确定性被控对象和未知非线性时变对象,通过构造虚拟等价系统的方法研究T--S模糊控制系统的稳定性.采用虚拟等价系统的目的在于降低原问题的难度,改进现有稳定性判据的保守性.分析结果表明,T--S模糊控制系统的稳定性主要取决于局部模型的精度、模糊规则的正确性以及局部控制器的镇定性.  相似文献   

14.
The goal in reinforcement learning is to learn the value of state-action pair in order to maximize the total reward. For continuous states and actions in the real world, the representation of value functions is critical. Furthermore, the samples in value functions are sequentially obtained. Therefore, an online sup-port vector regression (OSVR) is set up, which is a function approximator to estimate value functions in reinforcement learning. OSVR updates the regression function by analyzing the possible variation of sup-port vector sets after new samples are inserted to the training set. To evaluate the OSVR learning ability, it is applied to the mountain-car task. The simulation results indicate that the OSVR has a preferable con- vergence speed and can solve continuous problems that are infeasible using lookup table.  相似文献   

15.
强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网络的并行强化学习的应用方法,并通过实验仿真验证了迭代过程的收敛性和该方法的可行性,从而有效地完成了路径学习。  相似文献   

16.
针对多机器人系统在未知环境编队导航过程中遇到较长障碍物时,顺时针绕障和逆时针绕障的不同选择会给导航效率带来很大影响的问题,提出了一种三层强化学习方法。由高层的基于“条件-行为对”的在线学习适应环境障碍物的动态变化,中层采用角色交叉包含式控制结构保持队形,底层采用离线式常规强化学习机制获得避碰规则。仿真实验结果表明,由于只在高层保持在线学习,使学习空间得以缩小,学习时间得以缩短。该方法为复杂环境下的多机器人编队导航提供了一种有效的自主学习策略。  相似文献   

17.
最大交互数是描述模糊系统前件模糊集的疏密程度,它在各类模糊系统逼近性的实现问题中具有重要意义.首先引入分片线性函数(PLF)和最小推理机重新建立非齐次T-S模糊系统.其次,基于几何直观阐述了最大交互数对该系统的影响,并通过改变最大交互数和随机选取样本点对该系统实际输出实施近似计算.结果表明,剖分数一定时最大交互数对非齐次T-S模糊系统内部结构和取值都具有潜在影响.  相似文献   

18.
 机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节中记录下从初始状态到达当前状态的状态转换序列,从中求出其它状态到达当前状态的最短状态路径,使当前状态更新的值函数可沿该最短状态路径逆序向前传播,从而实现值函数的批量更新.从在栅格环境中求最短路径的仿真试验结果看,该方法可显著提高值函数的更新频率,缩短学习时间.  相似文献   

19.
研究一类离散T-S模糊系统的状态反馈的严格二次型耗散控制问题。给出了保证该系统耗散稳定的充分条件,状态反馈控制器可以通过求解一组线性矩阵不等式(LMI)获得。所得结果提供了解决H∞控制与正实控制的统一框架,同时,提供了一个更灵活、保守性更小的控制器设计方法。仿真结果表明,所提方法的可行性与优越性。  相似文献   

20.
讨论了时滞T-S模糊系统的控制器设计与稳定性分析方法。提出了时滞T-S模糊模型并利用Lya-punov函数法给出了系统的稳定条件;讨论了系统带有控制输入的状态反馈控制器设计方法,并给出了闭环系统稳定的充分条件;给出了仿真实例,仿真结果表明了方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号