首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.  相似文献   

2.
平移策略在线性算法研究中具有广泛的使用价值,主要的应用方法为相对定长平移和线性段整体平移两种策略,应用平移策略可以对算法以及算法的特定部分进行改进,从而降低算法复杂性,提高运行效率.主要以计算机专业硕士研究生考试和经典KMP算法为案例,通过实验比较得出最优算法的过程.  相似文献   

3.
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。  相似文献   

4.
近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation, GAE)对优势函数进行描述;然后采用类似异步优势演员-评论家(asynchronous actor-critic, A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。  相似文献   

5.
基于带错误学习问题(Learning With Errors,LWE)构造的密码体制能够抵御量子攻击,它的应用效率与LWE问题的采样过程密切相关.而在LWE问题采样中,对其中的错误因子(Error Factor)采样占采样过程绝大部分时间,本文对LWE问题中的错误因子的采样算法进行研究,将在高斯分布上效率较高的金字塔(Ziggurat)采样算法,应用到了一种高效的LWE问题采样算法中.基于在连续域上的采样比离散域上采样效率高的思路,对LWE问题采样算法在离散域上采样的过程进行了优化,提出了一种将连续域上的采样结果进行取整的方法,.对优化前后的两种LWE问题的采样算法进行了对比实验,结果表明:改进后的算法在不占用大量内存并且保证安全性的情况下,将采样速度提高了38%~200%.  相似文献   

6.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.  相似文献   

7.
针对多智能体系统蜂拥控制过程中存在效率不高的现象,融合图论和控制理论的分析方法,提出一种基于网络特征重数的牵制蜂拥控制算法.该算法通过网络拓扑结构的邻接矩阵,根据其特征值的最大重数,得出网络可控时所需牵制节点的数目,随后进一步利用控制理论中的PBH判据确定具体的牵制节点,并为之设计牵制蜂拥控制律.与随机牵制策略和度最大牵制策略进行的仿真实验统计结果对比证实了所提算法在提升整个系统控制效率方面的有效性.  相似文献   

8.
学习自动机是增强学习理论体系中的重要组成部分,在应用数学的随机函数优化、信息安全的异常检测等理论和实际问题中发挥着重要作用.估计器算法是目前学习自动机中最为主流的一类算法,具有最高的算法性能.但是,由于估计器本身的局限性导致在学习初期估计值不准确,行为选择概率向量无法一直保持最优更新,且概率向量的更新完全依赖于固定步长,一次错误的更新需要大量额外的迭代来对其进行弥补,算法的收敛效率仍存在提升空间.针对上述问题,通过改进估计器算法的概率向量更新策略,提出一种基于双重竞争策略的学习自动机算法,并对其ε-收敛特性进行数学证明.实验结果显示,该算法提高了学习自动机的收敛效率,从而验证并确立了所提策略的有效性和算法的优越性.  相似文献   

9.
针对入侵检测的代价敏感主动学习算法   总被引:3,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

10.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

11.
针对正交频分复用的多蜂窝网络系统,提出了一种基于深度强化学习的通信资源分配算法,该算法在满足资源分配高速率、低延时要求的前提下,同时产生信道分配方案和功率控制方案,从而最大化系统的能量效率。首先,在确定好基于正交频分复用的多蜂窝网络系统模型的基础上,将最大化能量效率的约束优化问题同深度Q强化学习算法进行问题映射。其次,将构建的深度Q神经网络(DQN)的多个隐藏层作为状态值函数,用以输出信道分配方案和功率控制方案,并实时与外界环境保持交互,不断迭代更新网络参数用以最大化系统能量效率。通过仿真对比实验可得,所提出的深度强化学习算法在保证低计算时延的同时,可获得接近于或高于其他算法的系统能量效率,且蜂窝网络规模越大,该算法优势越突出。  相似文献   

12.
综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先控制策略,从而使其具备了自学习的能力.基于Paramics的仿真实验表明,该算法能够在保障路口正常交通秩序的同时,显著提高公交车运行效率.  相似文献   

13.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.  相似文献   

14.
研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果.  相似文献   

15.
基于SaCE-ELM的地铁牵引控制单元快速故障诊断   总被引:1,自引:0,他引:1  
地铁牵引控制单元(TCU)在地铁运行过程中有重要的作用,及时有效地对其进行故障诊断,是保证地铁正常运行的重要环节.针对传统故障诊断方法的学习速度慢、易陷入局部最优、预测精度较差等缺点,提出一种使用自适应差分进化算法(SaCE)进行优化的极限学习机(SaCE-ELM),即通过自适应差分进化算法对极限学习机的输入权重、隐含层参数和输出权重进行优化.其中,差分进化算法的变异策略通过基于混沌序列的自适应机制产生,其他参数使用正态分布随机生成;网络的输出权重使用Moore-Penrose广义逆矩阵计算得出.SaCE-ELM不需要人工选择变异策略和参数,自适应策略比SaE-ELM更加简单.实验结果表明,与E-ELM、SaE-ELM、LM-NN、SVM相比,SaCE-ELM具有更好的预测精度.此外,SaCE-ELM在所有数据集上训练时间比SaE-ELM和SVM更少,有效地改善了生成模型的效率.  相似文献   

16.
为了提高电力系统的暂态稳定性,采用采样迭代学习方法,在不需要已知被控系统精确数学模型和对机端电压误差进行求导运算的情况下,设计出了一种同步发电机的励磁控制器,给出了励磁控制系统范数形式的收敛条件.研究结果表明:该控制器避免了以往采用PD型迭代学习控制算法的不足,显著提高了同步发电机功角和机端电压的稳定性.该成果不仅解决了在实际应用中迭代学习励磁控制算法的计算机实现问题,而且还将可能成为发电机的励磁控制方式发展的一种趋势.  相似文献   

17.
提出了一种新的基于分块的视频压缩感知算法,可以将视频采集和压缩编码有机结合起来同时进行. 为利用视频时间轴上的冗余,对参考帧和非参考帧使用不同的采样策略:对于参考帧,先进行分块然后进行常规的压缩感知采样;对于非参考帧,将分块后和参考帧对应块作比较然后调整采样策略. 非参考帧的采样可以为参考帧提供更多的信息,使得在采样数目很少的情况下得到更高的视频质量. 同时算法可以根据视频帧内部的纹理复杂程度自适应地调整采样速率,优化资源配置. 实验结果表明,相对于一般的压缩采样算法,本算法使用比以往算法少20%以上的采样值,得到的结果既符合人眼观察又有最高的信噪比.   相似文献   

18.
针对稀疏深度图像的重建问题,提出了一种基于深度学习的多层级跨模态特征融合的深度图重建算法.利用卷积神经网络对彩色信息和稀疏深度信息分别编码并在多个尺度下进行自适应融合,在解码阶段通过残差学习进一步细化重建结果.模型通过复用深度编码支路的短路连接引导特征上采样,输出初始深度图,同时复用彩色编码支路提取的丰富语义特征,将多个尺度下输出的上采样特征图进行金字塔迭代上采样,进而学习与最终重建结果的残差,提高了重建结果的质量.在NYU-Depth-v2和KITTI数据集上的实验结果表明:本文方法与现有的主流方法相比,具有较好的深度图重建性能,同时在视觉比较上生成了更为锐利的深度边界.  相似文献   

19.
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.  相似文献   

20.
针对信息物理融合系统(CPS)中的协调采样控制问题,提出了一种分布式控制算法.首先将CPS中的物理过程和数据信息处理过程建模为一组耦合关联的子系统和一组可以相互通信的控制器;然后利用输入延迟方法构造Lyapunov-Krasovskii函数,并对系统的稳定性进行了研究;接着基于稳定性理论,给出了系统在分布式采样控制律下的稳定性条件,并在此基础上设计了一种分布式采样控制算法.数值仿真结果表明:当控制器通信连接与系统耦合程度相当时,用于控制耦合程度较强的子系统控制器增益较小;当最大采样时间变大时,控制器的控制约束量变大;文中提出的算法能根据物理过程的耦合关系合理地配置CPS中的控制器资源.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号