首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,从而有效地解决了复杂未知环境的机器人导航问题。实验结果表明,由强化学习设计的模糊控制器的有效性,同时具有较强的适应能力,可以应用于不同的复杂环境。  相似文献   

2.
基于多个并行CMAC神经网络的强化学习方法   总被引:1,自引:0,他引:1  
为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。  相似文献   

3.
针对传统的小脑模型,提出了一种广义模糊小脑模型神经网络(GFCMAC)。它采用模糊隶属度函数作为接收域函数,可以获得较常规CMAC连续性强且有解析微分的复杂函数近似,具有计算量少,学习效率高等优点。研究了GFCMAC接收域函数的映射方法、隶属度函数及其参数的选取规律和学习算法。结合强化学习,提出了一种基于GFCAMC的强化学习算法,讨论了其实现过程。应用于船舶航向控制的仿真结果表明,在有各种风浪干扰下,船舶航向跟踪快且操舵动作合理,适合船舶转向控制要求。  相似文献   

4.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。  相似文献   

5.
基于径向基函数网络的强化学习在机器人足球中的研究   总被引:2,自引:1,他引:1  
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。  相似文献   

6.
针对工业间歇过程的控制问题,分析比较了现有的两类反馈-前馈迭代学习算法在解决工业间歇过程控制系统滞后问题上的缺陷,采用T-S模糊预测模型,在原有反馈-前馈迭代学习算法基础上引入预测思想,研究了基于模糊预测的迭代学习算法,并设计了一种模糊预测学习控制器。以具有滞后、变参数特性的间歇过程为例,进行了仿真研究,验证了提出方法的有效性。  相似文献   

7.
针对T-s模糊系统的轨迹跟踪控制问题,提出了基于正交多项式的迭代学习算法.该方法首先推导了T-S模糊全局系统的等价系统,然后利用正交多项式级数展开技术和其积分运算矩阵,将等价系统的微分方程转化为代数方程.在此基础上,用迭代学习的方式来修正输入量的正交多项式系数.所得算法对于具有任意相对阶的非线性系统,可用输出误差信号本身来构造学习律.仿真实例表明了新算法的有效性.  相似文献   

8.
一种模糊神经网络自适应预测控制方案的研究   总被引:1,自引:0,他引:1  
针对现有模糊推理方法的缺点,结合神经网络的学习能力和插值能力,提出了一种新型的模糊神经网络结构。在此基础上设计了一种模糊神经网络自适应预测控制方案,并导出了相应的学习算法。同时引入了预测误差的智能补偿,以提高预测及控制精度。仿真实验表明,该算法能实现模糊控制和神经网络控制的优势互补,在非线性复杂系统的控制方面具备较高的性能。  相似文献   

9.
考虑了一类特殊的迭代学习控制问题,即用迭代学习方法解决机器人的点位控制问题。采用T-S模型描述机器人系统,在T-S模型的基础上,运用并行分配补偿方法(PDC)确定T-S模型的迭代学习控制器结构,并给出了误差收敛条件。为避免迭代过程的初始定位操作,丈中还设计了模糊循环迭代学习律。最后以在垂直面内运动的单关节的机器人为例说明了所提出方法的有效性。  相似文献   

10.
神经元模糊控制器在工业过程控制中的应用   总被引:3,自引:0,他引:3  
针对普通模糊控制器存在控制精度不理想的问题,提出一种把神经元与模糊控制器相结合的方法,提高了控制系统的鲁棒性和控制精度,应用于工业过程控制中表明该系统具有良好的性能及应用前景.  相似文献   

11.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

12.
采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit, GEO)全电推进卫星的轨道提升问题, 将广义优势估计(generalized advantage estimator, GAE)和近端策略优化(proximal policy optimization, PPO)方法相结合, 在考虑多种轨道摄动影响以及地球阴影约束的情况下, 提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题, 提出了动作输出映射和分层奖励等训练加速方法, 有效提升了训练效率, 加快了收敛速度。数值仿真和结果对比表明, 所提方法更加简单、灵活、高效, 与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。  相似文献   

13.
基于模糊马尔科夫理论的机动智能体决策模型   总被引:2,自引:1,他引:1  
针对机动作战仿真背景,运用智能体理论研究战术机动智能体的最优机动决策问题。对传统的马尔科夫决策模型进行了扩展,通过定义攻击威胁下机动智能体的模糊状态空间、模糊状态转移规律和决策收益,建立了模糊战术机动决策模型,较好地描述了实际作战决策中的模糊认知、分析、判断等信息处理过程。通过引入强化学习手段,提出融合指挥员先验信息的Q学习算法和状态动态分类识别算法,对状态转移规律不易确定时模型的求解进行了研究;仿真实验验证了模型和算法的有效性。  相似文献   

14.
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。  相似文献   

15.
1 .INTRODUCTIONAutonomous mobilerobotics has beena veryi mportant re-searcharea in artificial intelligence and control theory fordecades. Researchers have developed series of methodolo-giesto build mobile robots withself-learning and adaptivecontrol capabilities,rangingfromdeliberative model-basedto purelyreactive paradigms.But nostrongsuccesses havebeen achieved yet . For there are three main difficulties:(1) We cannot programeverything for the robot ,espe-cially in an unknown environmen…  相似文献   

16.
程玉虎  王雪松  孙伟 《系统仿真学报》2007,19(19):4440-4444
针对T-S型模糊推理系统的模型参数辨识问题,充分利用模糊推理系统的可理解性与神经网络的学习能力,提出一种自适应T-S型模糊径向基函数网络。为设计满足精度要求的最小结构神经网络,在对网络学习动态进行分析的基础上,给出了网络拓扑结构的动态构造学习算法。在不需要任何先验知识的情况下,能够根据任务复杂度和学习进度进行网络隐层节点的自适应增加、合并和删除操作。将该网络应用于非线性函数逼近问题,取得较好的效果。  相似文献   

17.
李毅  彭勤科  胡保生 《系统仿真学报》2005,17(6):1307-1310,1314
提出将自组织模糊神经网络(SCFNN)应用于网络控制系统(NCS)中的远程控制器的设计。SCFNN的学习过程包托结构学习和参教学习两个阶段。结构学习的目的是对输入空间进行合理的模糊划分并动态地生成一组模糊逻辑控制规则,而参数学习是通过有监督梯度下降法来调整隶属度函数的参数以及模糊规则中结论部分的权值。最初的SCFNN只有输入节点和输出节点,而经过在线学习后逐步生成隶属度函数节点和规则节点。对基于Profibus-DP网络的网络控制系统进行测试,并与采用修正Ziegler-Niehols法设计的控制器的控制效果进行比较,结果表明基于SCFNN思想设计的远程控制器在网络控制系统中能够获得满意的控制效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号