期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李学勇欧阳柳波李国徽《南华大学学报(自然科学版)》2004,18(2):10-16

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. 相似文献

2.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

3.

基于深度强化学习分层控制的双足机器人多模式步态系统研究

下载免费PDF全文

徐毓松上官倩芡安康《上海师范大学学报(自然科学版)》2024,53(2):260-267

提出一种基于深度强化学习（DRL）分层控制的双足机器人多模式步态生成系统. 首先采用优势型演员-评论家框架作为高级控制策略,引入近端策略优化（PPO）算法、课程学习（CL）思想对策略进行优化,设计比例-微分（PD）控制器为低级控制器;然后定义机器人观测和动作空间进行策略参数化,并根据对称双足行走步态周期性的特点,设计步态周期奖励函数和步进函数;最后通过生成足迹序列,设计多模式任务场景,并在Mujoco仿真平台下验证方法的可行性. 结果表明,本方法能够有效提高双足机器人在复杂环境下行走的稳定性以及泛化性. 相似文献

4.

一种状态集结因子化SARSA（λ）强化学习算法

李春贵刘永信《内蒙古大学学报(自然科学版)》2001,32(6):675-678

提出了一种自适应状态集结因子化SARSA（λ）强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态空间搜索与计算的复杂度,有利于求解大状态空间的MDPs问题,而且,本算法不需要有关状态特征的先验知识,有很好的通用性。相似文献

5.

基于多步回溯Q(λ)学习算法的多目标最优潮流计算 总被引：1，自引：1，他引：1

余涛胡细兵刘靖《华南理工大学学报(自然科学版)》2010,38(10)

为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 相似文献

6.

基于再励学习的被动动态步行机器人

毛勇李实王家贾培发杨泽红丘振《清华大学学报(自然科学版)》2008,48(1):92-96

为了研究仿人、能量高效的双足机器人步行,研制了由MACCEPA(mechanically adjustable compliance and controllable equilibrium position actuator)柔性驱动器驱动的半被动双足机器人,并实现了其动力学仿真系统.提出一种基于再励学习的步行控制方法.该方法首先采用Q-学习方法学习机器人在理想环境中的稳定步行步态及其控制策略,然后将此步态和控制策略作为模糊优胜学习方法的参考步态和参考控制策略并在线学习模糊网络的优胜值参数.仿真结果表明: 利用学习训练的结果控制柔性驱动器在步行相转换时的动作,机器人可以实现稳定动态步行. 相似文献

7.

基于蚁群优化的模糊Sarsa学习算法

陈学松杨宜民《华中科技大学学报(自然科学版)》2011,39(Z2):340-343

提出了一种基于蚁群优化的模糊Sarsa学习(ACO-FSL)算法,在该算法中,首先把模糊系统按照模糊规则进行划分,对于每条模糊规则,有若干个候选动作可被选择,动作选择的概率依赖于实时的值函数;然后在每个动作选择的同时根据蚁群优化的思想定义变化的学习率,这样既缩小了搜索空间,又提高了学习效率.整个模糊推理模块被看作是蚂蚁... 相似文献

8.

一种基于深度强化学习的SDN路由算法

下载免费PDF全文

丁怀宝《上海师范大学学报(自然科学版)》2021,50(1):128-132

为解决软件定义网络(SDN)中的流量工程(TE)问题,提出了一种深度强化学习路由(DRL-Routing)算法.该算法使用较全面的网络信息来表示状态,并使用一对多的网络配置来进行路由选择,奖励函数可以调整往返路径的网络吞吐量.仿真结果表明,DRL-Routing可以获得更高的奖励,并且经过适当的训练后,能使各交换机之间... 相似文献

9.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

10.

一种快速强化学习方法研究

童亮陆际联龚建伟《北京理工大学学报》2005,25(4):328-331

在对资格迹理论研究的基础上,提出了一种延迟快速强化学习算法DFSARSA(λ)(延迟快速SARSA(λ)算法).算法的主要思想是通过对资格迹的重新定义和对即时差分TD(λ)偏差的跟踪,使强化学习中Q值在需要时进行更新,而SARSA(λ)每一步都对Q值进行更新,该方法使SARSA(λ)算法的更新计算复杂度从O(|S||A|)降到了O(|A|),提高了强化学习速度,仿真实验证明了该算法的有效性. 相似文献

11.

类圆规双足被动行走模型及其稳定性

安康刘成菊《同济大学学报(自然科学版)》2017,45(8):1209-1217

研究一种两杆三质点类圆规双足被动行走模型,在行走模型上增加支撑脚横向和纵向两个自由度,以该模型为研究对象,求解被动动态行走步态,并分析其局部和全局稳定性.结果表明当模型的雅克比矩阵最大特征值在单位圆内且初始状态在吸引域内时,行走步态稳定.为理解双足行走的运动机理提供指导,同时也为设计稳定、高效的双足机器人提供分析思路. 相似文献

12.

四足步行机器人动步态特征辨识算法

王学敏铁锦程《上海交通大学学报》1997,31(3):17-19,23

针对四足机器人行走动步态的研究，提出了一种基于神经网络中Ｋｏｈｏｎｅｎ自组织映射的聚类算法。该算法依据其特征对步态数据进行聚类，并利用求重心的方法，获取特征模型，大大简化了调试工作。相似文献

13.

基于自适应网络的动态双足机器人模糊控制

槐创锋方跃法郭盛《北京交通大学学报(自然科学版)》2008,32(1):108-111

提出一种基于步态规划分级结构的自适应网络模糊推理系统控制策略,该方法不需要确定双足机器人运动学和动力学模型.以一种动态双足机器人为例,建立机器人的Sugeno模糊模型,对机器人系统的不确定上界进行自适应参数估计,采用自适应控制器逼近未知不确定界,解决了一类非线性系统的稳定控制问题.控制器的设计只要求不确定性满足匹配条件,而无需知道不确定界,能够处理不确定参数变化范围更广的情况,减少控制系统设计中的保守性.设计的分级控制系统可以学习试验的输入输出数据,从而在动态平衡下进行行走.同时,模糊控制器的进一步在线学习能力可以显著地改善步行机器人的动态性能. 相似文献

14.

基于连接增强式学习的移动机器人控制

杨玉君程君实陈佳品《上海交通大学学报》2003,37(11):1662-1664

采用基于行为的控制方法，机器人在不知道外界精确模型的条件下，利用增强式学习自主完成给定的任务，机器人在学习过程中需要对行为状态进行记忆，连接增强式学习利用多层感知器逼近Q函数，泛化状态空间，节约了存储容量，仿真结果证明了这种算法的有效性，解决了基于查表增强式学习不适用连续状态空间的缺陷，为移动机器人进一步实用化提供了依据。相似文献

15.

基于强化学习的三维游戏控制算法

孟琭沈凝祁殷俏张昊园《东北大学学报(自然科学版)》2021,42(4):478-483

基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果. 相似文献

16.

基于被动行走原理的双足机器人步态规划

李宏扬孙中波田彦涛《吉林大学学报(信息科学版)》2016,34(1):79-85

为解决四连杆双足机器人的平面步态规划问题, 提出基于被动行走的平面步态规划。基于3毅向下坡面完全被动行走的动力学方程, 利用角度不变控制方法施加控制力矩, 得到机器人在水平面上的动力学模型。结合常数时间放缩方法对平面参考轨迹进行时间放缩, 得到机器人在水平面上步幅不变, 周期可变的行走步态。通过Matlab 软件数值仿真结果表明, 该研究方法是可行、有效的。相似文献

17.

有躯干双足机器人被动行走及其稳定器

冯帅孙增圻《北京科技大学学报》2012,(1):59-64

采用Matlab仿真的方式构建了一个简单的有躯干双足机器人模型,研究了该模型在斜坡上的被动行走,分析了模型步行的稳定性,并设计了一个全状态线性反馈步行稳定器.研究结果表明:无任何驱动器的有躯干双足机器人能够实现沿斜坡而下的被动行走,其步行方式有两种,但均不稳定;设计的全状态反馈稳定器能够较好地稳定模型的被动行走. 相似文献

18.

一种基于性能势的无折扣强化学习算法 总被引：1，自引：1，他引：0

周如益高阳《广西师范大学学报(自然科学版)》2006,24(4):58-61

传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。相似文献

19.

基于多Agent强化学习的战时备件供应保障动态协调机制

刘喜春王超王文广王维平《空军工程大学学报(自然科学版)》2009,10(3):59-63

有效的备件供应保障是保证航空装备处于良好状态的重要因素.战时备件供应保障的不确定性特点突出.为了应对这些不确定,精确保障要求下战时备件供应保障更加强调备件资源在系统中的动态协调.鉴于战时备件供应保障系统与多Agent系统的相似性,采用基于Agent的建模仿真技术研究多阶段供应保障过程中的动态协调机制.以Agent之间的供需关系为基础给出了多Agent系统模型结构中小组的定义.为了给出备件短缺情况下使军事效益最大的备件分配策略,设计出以小组为单位的多Agent强化学习方法.最后通过仿真实例验证了方法的有效性. 相似文献