首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法.首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型.然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制.最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,...  相似文献   

2.
传统酒店动态定价研究大多考虑改进需求预测方法或考虑需求环境已知,而现实生活中需求分布通常是未知的.本文考虑需求分布未知的情境,建立基于马尔可夫决策过程的酒店客房多周期动态定价模型,并利用强化学习方法,提出基于SARSA(λ)的改进算法对客房动态定价模型进行求解.为提升算法的求解能力和收敛速度,提出了基于改进ε-greedy策略的ε-SARSA(λ)算法和基于改进模拟退火策略的ISA-SARSA(λ)算法.通过数值实验对比SARSA(λ), ε-SARSA(λ), SA-SARSA(λ)和ISA-SARSA(λ)四种算法的收益优化结果,验证了改进算法的有效性,结果显示, ISA-SARSA(λ)算法求解性能最好.  相似文献   

3.
摆臂式履带机器人具有一定的地形适应能力,实现摆臂的自主控制对提升机器人在复杂环境中的智能化作业水平具有重要意义。结合专家越障知识和技术指标对机器人的摆臂控制问题进行马尔可夫决策过程(Markov decision process,MDP)建模,基于物理仿真引擎Pymunk搭建了越障训练的仿真环境;提出一种基于D3QN(dueling double DQN)网络模型的深度强化学习摆臂控制算法,以地形信息与机器人状态为输入,以机器人前后四摆臂转角为输出,能够实现挑战性地形下履带机器人摆臂的自学习控制。在Gazebo三维仿真环境中将算法学得的控制策略与人工操纵进行了对比实验,结果表明:所提算法相对人工操纵具有更加高效的复杂地形通行能力。  相似文献   

4.
征对多移动机器人协同问题,将角色变换与强化学习相结合,采用集中式控制结构,并提出了距离最近原则,将距离障碍物最近的机器人作为主机器人并指挥其它从机器人运动,同时采用了基于行为的多机器人协同方式,在提出的基于强化学习的行为权重基础上,通过与环境交互使机器人行为权重趋向最佳,并利用基于最大行为值的协调策略来规划机器人避碰行为.通过在动态环境下多机器人协同搬运仿真实验,表明在使用了角色变换和强化学习后,有效减少了多机器人与障碍物发生碰撞的次数,成功的实现了协同搬运,具有良好的学习效果.  相似文献   

5.
基于径向基函数网络的强化学习在机器人足球中的研究   总被引:2,自引:1,他引:1  
与监督学习从范例中学习的方式不同,强化学习不需要先验知识,而是具有从经验中学习的能力,将强化学习应用在大状态空间中,必须应用函数逼近的方法,如使用径向基函数网络建立输入和输出的映射关系。本文对基于径向基函数网络的强化学习在机器人足球这样的动态的多智能体环境中的应用进行了研究。实验结果证明了研究方法的可行性。  相似文献   

6.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法.与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略.首先,通过核函数的强化学习来应对维度诅咒问题.其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的...  相似文献   

7.
研究了一种基于智能体动作预测的多智能体强化学习算法. 在多智能体系统中,学习智能体选择动作不可避免地要受到其他智能体执行动作的影响,因此强化学习系统需要考虑多智能体的联合状态和联合动作.基于此,提出使用概率神经网络来预测其他智能体动作的方法,从而构成多智能体联合动作,实现了多智能体强化学习算法. 此外,研究了该方法在足球机器人协作策略学习中的应用,使多机器人系统能够通过与环境的交互学习来掌握行为策略,从而实现多机器人的分工和协作.  相似文献   

8.
为了将视觉信息融入到机器人导航过程中,提高机器人对各类障碍物的识别率,减少危险事件的发生,设计了基于二维CNN及LSTM的局部路径规划网络。提出了基于深度学习的局部路径规划方案。利用机器人视觉信息及全局路径信息推理产生机器人在当前时刻完成避障导航任务所需转向角度;搭建了用于对规划器核心神经网络进行训练和验证的室内场景;提出了以路径总长度、平均曲率变化率及机器人与障碍物之间的距离为性能指标的路径评估方案。实验表明:该方案在仿真环境及真实场景中均体现了较优秀的局部路径生成能力。  相似文献   

9.
基于分段模糊Lyapunov方法的离散模糊控制系统设计   总被引:1,自引:1,他引:1  
张松涛  任光 《系统仿真学报》2007,19(2):352-354,420
针对应用公共Lyapunov函数方法和模糊Lyapunov函数方法判定离散T-S模糊控制系统稳定性存在的保守性和难度,在定义离散型分段模糊Lyapunov函数的基础上,应用并行分布补偿方法(PDC)设计出使模糊系统全局渐近稳定的拉制器,并提出和证明了一个新的判定用环离散T-S模糊系统稳定的充分条件,该条件降低了上述方法的保守性和难度。通过一个仿真例子验证了方法的有效性。  相似文献   

10.
叶光  郭晨 《系统仿真学报》2006,18(5):1278-1282
船舶运动控制与航行的安全性、可操纵性和经济性密切相关。本文基于模拟退火-强化学习算法提出了一种混合智能控制器,应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势,能够克服风、浪、流等外界的干扰,船舶操纵自身的不确定性,以及干扰或仪器测量误差情况下,精确的训练数据不容易得到的缺陷。最终的仿真结果表明,当存在风浪干扰海况下,船舶航向的控制仍能取得令人满意的效果。  相似文献   

11.
基于遗传算法的主动悬架模糊控制器设计   总被引:1,自引:0,他引:1  
郭建华  李幼德  李静 《系统仿真学报》2007,19(18):4178-4181
应用模糊逻辑控制理论,进行了车辆主动悬架模糊控制器的设计,并利用遗传算法对模糊控制的控制规则进行了优化。利用Matlab/Simulink对主动悬架系统进行了仿真,并与传统的被动悬架和用LQG控制的主动悬架进行了性能比较和分析,仿真结果表明具有模糊控制器的主动悬架能够有效提高车辆的平顺性和操纵稳定性,且具有较好的适应性和鲁棒性。  相似文献   

12.
对于许多实际的非线性系统,状态变量往往不能获取或难于测量。因此设计模糊状态观测器来估计状态变量是非常必要的。针对T-S模糊模型近似描述的非线性系统,提出了一种基于线性矩阵不等式(LMI)的具有区域极点配置功能的模糊控制器和模糊状态观测器的设计方法。首先利用并行分布补偿(PDC)设计思想和基于线性矩阵不等式(LMI)的极点配置理论,将闭环系统的全局渐进稳定性要求,性能指标及控制量约束条件统一到线性矩阵不等式框架内。然后求解线性矩阵不等式族获得控制器和观测器参数。最后将该设计方法应用于倒立摆的平衡控制中,通过仿真曲线可以看出该方法设计的控制器可使倒立摆稳定并满足指定的性能指标,因此该设计方法是有效的。  相似文献   

13.
FuzyLogicBasedAdaptiveControlofConstrainedFlexiblelinkRobotWANGLiDepartmentofAutomation,SouthChinaUniversityofTechnology,Gua...  相似文献   

14.
任燚  陈宗海 《系统仿真学报》2005,17(7):1699-1703
基于行为的自主移动机器人在获取外界信息时不可避免地会引入噪声,给其系统性能造成一定的影响。提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。针对典型的觅食任务,以计算机仿真为手段。并与其它四种算法——基于结果奖赏和优先扫除(PS-result)、基于过程奖赏和Q学习(Q-process)、基于结果奖赏和Q学习(Q-result)和基于手工编程策略(Hand)进行比较。研究结果表明比起其它四种算法,本文所提出的基于过程奖赏和优先扫除的强化学习算法能有效降低噪声的影响,提高了系统整体性能。  相似文献   

15.
SCARA型机器人的控制问题由于其动力学模型中没有重力矩项的作用而得以简化,由于在实际应用中经常要求其高速运动,则对具有强耦合的哥氏力与向心力的控制就成为制约其系统性能的重要问题。提出通过线性变换对机器人系统解耦,将高阶系统转化为解耦的低阶系统进行控制的方法,并且应用极点配置对解耦的系统求解机器人控制器。该方法无需测量关节速度和加速度,只需要测量关节位置信号。所提出的控制器既能保证闭环系统全局渐进稳定,又能通过对线性化系统闭环极点的配置来获得期望的闭环系统响应性能。仿真实验证明了所提出的控制器设计方法的可行性。  相似文献   

16.
基于模糊神经网络局部强化学习在Robocup中的应用   总被引:2,自引:0,他引:2  
吴定会  李真  纪志成 《系统仿真学报》2007,19(16):3719-3723
针对Robocup仿真组比赛中智能体的配合与动作选取,将模糊神经网络(FNN)和局部协调图动态角色分配与传统Q-学习相结合,提出了基于模糊神经网络的局部Q-学习。采用该方法,有效抑制了仿真平台中的噪声干扰,提高了动作选取的精度,解决了传统Q-学习中Q表占用内存空间过大的问题,增强了系统的泛化能力,并进一步缩短了学习时间,更好的满足比赛实时性的要求。将其运用于仿真组比赛的传球和射门模型中,验证了该方法的有效性。  相似文献   

17.
针对空间主动碎片清除操作中连续型三臂节机器人系统跟踪问题,提出一种基于强化学习的自适应滑模控制算法。基于数据驱动的建模方法,采用BP神经网络对三臂节连续型机械臂进行建模,并作为预测模型指导强化学习实时调节所提出滑模控制器的控制参数,从而实现连续型机器人运动的实时跟踪控制。仿真结果表明:提出的数据驱动的预测模型对随机轨迹预测的相对误差保持在±1%以内,能够高精度地反映系统动态特性。对比固定参数的滑模控制器,提出的自适应控制器在保证系统达到控制目标的同时具有更低的超调量和更短的调节时间,表现出更好的控制效果。  相似文献   

18.
基于遗传算法的模糊免疫控制器设计   总被引:4,自引:2,他引:4  
张毅  杨秀霞 《系统仿真学报》2004,16(7):1548-1551
运用模糊李亚普诺夫综合法设计模糊控制器来模拟免疫系统中的反馈机理,应用遗传算法对控制系统响应的快速性及稳定性的参数进行了优化,实现了免疫控制器的合理设计。采用此方法设计平衡梁系统控制器,仿真结果表明,控制器性能优于常规控制器,且系统具有良好的鲁棒性。  相似文献   

19.
SYSTEMS ENGINEERING1. IMTSODUCTIONMachine scheduling problem is the study of constructing schedules of machine processing for a set of jobs inorder to ensure the execution of all jobs in a reasonable amount of time or cost. Usually, it deals with whatmachines to be allocated to which jobs and how to order the jobs in an appropriate processing sequence. Inparallel machine system, two machines are identical and a job can be processed by any one of the free machines.Each finished job …  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号