期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖术骏朱学峰《合肥工业大学学报(自然科学版)》2009,32(11)

文章针对差分进化算法收敛速度和全局搜索能力之间不能同时兼顾这一问题,提出了一种改进的差分进化算法,该算法从动态更新种群、递增策略的交叉概率因子及递减策略的缩放因子对标准DE算法进行了改进,并用6个典型的测试函数对改进的差分进化算法和标准差分进化算法进行测试比较,结果表明改进后的差分进化算法在收敛速度、收敛精度和算法鲁棒性方面都要优于标准差分进化算法,采用动态更新种群的策略也有效地提高了算法的运算效率. 相似文献

2.

基于神经网络语言模型的动态层序Softmax训练算法

杨鹤标胡惊涛刘芳《江苏大学学报(自然科学版)》2020,41(1):67-72,80

针对词向量训练过程中层序Softmax算法无法进行增量训练及海量数据训练低效的问题,提出了动态层序Softmax算法.通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练.为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率.以维基百科中文语料作为数据进行了试验,完成了训练效率和质量的分析.结果表明:相较于现有方法动态层序Softmax算法显著提高了训练效率,当增量样本大小为10 kB～1 MB时,训练增速有近30倍的提升,有效地缩短训练周期. 相似文献

3.

Efficient Reinforcement-Learning Control Algorithm Using Experience Reuse

Hao Chuan-chuan Fang Zhou Li Ping 《华南理工大学学报(自然科学版)》2012,40(6)

使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息；在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率. 相似文献

4.

采用经验复用的高效强化学习控制方法

郝钏钏方舟李平《华南理工大学学报(自然科学版)》2012,(6):70-75

使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率. 相似文献

5.

一种基于元胞自动机的混洗蛙跳优化算法

张强李盼池李欣《吉林大学学报(理学版)》2016,54(2):337-343

基于元胞自动机理论提出一种改进混洗蛙跳算法. 该算法将元胞自动机嵌入到混洗蛙跳算法中改进分组策略, 应用云模型和混沌理论改进个体更新方式, 利用演化规则模拟生物进化的动态特征. 对6个基准函数进行测试的实验结果表明, 该算法具有较好的收敛精度和计算速度, 适用于多峰值函数寻优. 相似文献

6.

改进免疫遗传算法用于图像阈值分割 总被引：1，自引：1，他引：0

魏衍君陈哲郑青碧《河南科学》2012,30(1):81-84

在图像阈值分割中,基于遗传算法的分割方法存在着运行速度慢、易形成未成熟收敛等缺点.针对这一问题对其进行了改进.改进的免疫遗传算法在免疫算子中引入疫苗接种机制,极大地提高了收敛效率,对交叉概率和变异概率进行了改进,避免了局部收敛,以保证改进算法能收敛到全局最优值.实验结果表明,改进的免疫遗传算法比传统的算法提高了运行效率,解决了全局搜索不收敛和局部搜索不到最小值的问题,并具有更好的收敛稳定性. 相似文献

7.

视觉辅助的分布式驱动电动汽车路面估计方法

《同济大学学报(自然科学版)》2019,(Z1)

利用分布式驱动电动汽车车轮转矩精确可知可控的特点,设计基于轮胎纵向力估计的路面附着系数扰动估计器。为提高路面估计算法收敛速度,设计基于车载摄像头的路面辅助辨识方法,利用颜色矩法和灰度共生矩阵法提取路面颜色纹理特征,并基于支持向量机实现路面分类。基于增益调度方法设计融合估计策略。实车试验的结果表明,相比单一的动力学估计器,该设计算法具有收敛速度快、精度高的特点。相似文献

8.

支持向量机和粒子群优化的可靠度算法

《辽宁工程技术大学学报(自然科学版)》2015,(8)

针对非线性隐式极限状态方程的可靠度指标计算,将支持向量机和粒子群优化算法相结合,提出了一种结构可靠度算法.首先结合支持向量机不受样本点限制的优点,将历次迭代产生样本点加入本次迭代样本点中,采用支持向量机对样本点进行训练,然后引入粒子群优化算法计算可靠度指标,解决迭代过程中支持向量机回归模型可靠度指标计算震荡不收敛的情况,最后根据可靠度指标收敛得到的支持向量机回归模型,采用重要抽样法计算失效概率.计算结果表明:该方法得出的失效概率具有较好的精度,特别是针对迭代过程中可靠度指标不收敛的情况具有良好的适用性. 相似文献

9.

基于最优向量基线的参数探索策略梯度算法

赵婷婷李坤刘展硕陈亚瑞王嫄杨巨成《天津科技大学学报》2023,(4):69-75

策略梯度算法是深度强化学习领域中广泛使用的一类无模型强化学习方法,在实际应用中取得了突破性进展。策略梯度算法一直受到梯度估计方差大的困扰,基于参数探索的策略梯度算法(policy gradients with parameter based exploration,PGPE)从根本上缓解了该问题。通过最优基线技术的引入,策略梯度估计的方差进一步减小。然而,现有最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间的差异。针对此问题,本文提出一种向量基线概念并推导PGPE算法的最优向量基线表示,在理论上证明了引入最优向量基线的PGPE算法可以得到更小的梯度估计方差,并且实验验证了此算法的有效性。相似文献

10.

离散GI/G/1系统等待时间的尾概率估计

《复旦学报(自然科学版)》2010,(4)

设计了用于估计离散GI/G/1系统等待时间尾概率渐进衰减常数的算法.由于考虑到速率矩阵的特殊结构,所得到的数值算法简洁、高效.与以单纯计算速率矩阵为目标的算法相比较,尾概率渐进衰减常数对速率矩阵不要求有很高的精度,在实际应用中,只需估计出常数的量级即可,因此可以达到快速求解的目的.同时,也对如何计算等待时间的稳态分布边界向量进行了讨论.作为计算尾概率渐进衰减常数的过程中较为重要的量,稳态分布边界向量的快速求解关系到整个算法的效率.几个数值例子表明此算法在离散GI/G/1系统中有良好效果. 相似文献

11.

基于自适应动量更新策略的Adams算法

下载免费PDF全文

李满园罗飞顾春华罗勇军丁炜超《上海理工大学学报》2023,45(2):112-119

Adam算法是目前最常用的优化算法之一，但其面临学习率震荡导致模型不收敛问题，其改进算法AMSGrad也存在梯度递减导致的二阶动量失效问题。针对上述问题，提出了基于自适应动量更新策略的Adams算法。首先，通过为一阶动量和二阶动量引入自适应更新参数，并在最后的参数更新期间采用较小的一阶动量更新参数，构建了一种自适应的动量更新策略。其次，基于该更新策略，提出了一种能够快速收敛的Adams算法。最后，通过理论分析证明了Adams算法的收敛性。基于文本分类和图像分类的对比实验表明，相比于Adam和AMSGrad算法，Adams收敛速度更快、训练结果更好，且具有优秀的泛化能力；消融实验证明了Adams算法自适应动量更新策略的有效性。相似文献

12.

一种改进的近端策略优化算法

费正顺王焰平龚海波项新建郭峻豪《浙江科技学院学报》2023,(1):23-29

近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation, GAE)对优势函数进行描述;然后采用类似异步优势演员-评论家(asynchronous actor-critic, A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。相似文献

13.

SINS/CCD系统四元数中心差分姿态估计算法

《华中科技大学学报(自然科学版)》2014,(9)

针对载体捷联惯性导航系统(SINS)姿态确定中乘性四元数扩展卡尔曼滤波在大初始失准角情形下收敛速度慢及计算精度较低的问题,提出了捷联惯导与星敏感器组合系统姿态估计模型的单位四元数二阶中心差分算法.在推导系统姿态四元数非线性误差模型及其变量计算基础上,利用拉格朗日代价函数法计算四元数加权均值和四元数状态向量,以及非四元数向量分离策略计算估计均值及其方差矩阵,实施中心差分最优姿态估计计算达到提高算法计算精度和降低系统计算量的目的.仿真验证表明:在载体大初始失准角情形下,该算法相比于乘性扩展卡尔曼算法和四元数无迹卡尔曼算法,滤波精度得到提高,算法收敛速度相比于乘性扩展卡尔曼算法有所改善. 相似文献

14.

HS-OCPA学习系统设计及其在机器人姿态平衡控制中的应用

蔡建羡阮晓钢陈静《北京理工大学学报》2010,(S1):47-51

针对单层操作条件反射概率自动机的操作行为个数较多的问题,构造了一个层次结构的操作条件反射自动机,简称HS-OCPA仿生自主学习系统. 该系统主要基于Skinner操作条件反射机理和概率自动机进行设计,学习控制不需要系统的模型,在操作行为和系统性能的基础上,采用操作条件反射学习机制实现寻优学习,并利用操作行为的取向信息对操作条件反射学习机制进行调整,最终实现在线搜索最优的控制策略. 理论证明设计的操作条件反射学习机制可以确保学习系统依概率1收敛于最优的行为路径. 应用于两轮机器人姿态平衡控制的仿真和实验结果相似文献

15.

基于改进元胞蚁群算法的铁路取送车问题研究

《合肥工业大学学报(自然科学版)》2018,(11)

为了有效并且快速地解决树枝型专用线取送车问题,文章提出了一种基于元胞自动机(cellular automata,CA)模型的改进蚁群算法,即改进元胞蚁群算法(improved cellular ant colony algorithm,ICACA)。通过对蚁群算法中的转移概率以及信息更新策略加以改进,同时将元胞的演化规则和蚁群的信息素更新规则结合,提高了蚁群的全局优化能力;为了防止陷入局部最优,算法中设计了交换策略。仿真结果表明,文中提出的ICACA能够有效提高取送车作业问题的效率。相似文献

16.

基于EDLATrust算法的社交网络信息泄露节点概率预测

朱唯一张雪芹顾春华《清华大学学报(自然科学版)》2022,(2):355-366

在社交网络信息传播过程中,信息转发在用户之间广泛使用,但是存在着隐私信患在信息发布者未授权的情况下遭到泄露的问题.预测发现隐私信息泄露节点,对杜绝该类安全隐患具有重要意义.该文针对隐私信息泄露节点预测问题,提出了一种基于估计器的分布式学习自动机的信任推断(EDLATrust)算法,该算法能够推断社交网络中非直连节点之间... 相似文献

17.

基于LM法的光束法平差巡视器导航定位 总被引：2，自引：0，他引：2

马友青贾永红刘少创贾阳《东北大学学报(自然科学版)》2014,35(4):489-493

光束法平差是一种通过高斯牛顿法进行最优估计的方法,在利用相机图像进行巡视器导航定位时起着重要的作用.为获得在缺少足够控制信息的月面环境下的高精度定位信息,提出一种利用列文伯格-马夸尔特算法(LM算法)代替高斯牛顿算法,进行图像光束法平差的巡视器导航定位方法.根据LM算法的核心思想和巡视器图像的构网特征,构建光束法平差模型,并给出了合适的阻尼策略和验后权估计方法.实验结果表明,基于LM算法的光束法平差巡视器导航定位,可以克服高斯牛顿算法适用性弱的缺点,具有较高的定位精度和理想的收敛速率. 相似文献

18.

基于核的自组织映射聚类 总被引：1，自引：0，他引：1

肖云韩崇昭王选宏张俊杰《西安交通大学学报》2005,39(12):1307-1310

将核学习的方法应用于自组织映射聚类中,提出了一种核自组织映射聚类算法.该算法以核函数代替原始数据在特征空间中映射值的内积,并且神经元权值向量的初始化和更新都可由其组合系数向量表示,从而获得了直观而简单的迭代公式.分析了算法中学习速率过高会降低学习稳定性、学习速率过低又会降低收敛速度等参数选择问题,给出了一组折中考虑学习稳定性和收敛速度要求的参数初始值.实验结果表明,核自组织映射聚类对于非椭圆型的类分布数据,如环形数据,聚类正确率也能够达到99.886 4%.对IRIS数据集和入侵检测报警数据的聚类也证明了核自组织映射聚类方法的良好性能. 相似文献

19.

支持向量回归多参数的同时调节 总被引：2，自引：0，他引：2

廖士中丁立中贾磊《南京大学学报(自然科学版)》2009,(5)

参数调节问题是支持向量回归的基本问题.已有的参数调节方法主要采用内外双层优化框架,调节过程中,训练学习器与更新超参数交替进行.这种嵌套结构具有较高的计算复杂性.针对这一问题,提出了支持向量回归多参数的同时调节模型.首先,将Lagrange乘子、惩罚因子、不敏感度参数和核函数参数合并为一个参数向量,推导出支持向量回归问题的一个新的表示形式,可将原来分离的双层调节过程整合为一个单层调节过程.然后,应用贯序无约束极小化技术(SUMT),将支持向量回归问题转化为多元无约束优化问题.在此基础上,应用变尺度方法(VMM)设计、分析并实现了一个同时调节算法.最后,通过标准数据集上的实验,验证了同时调节算法的收敛性,并比较了同时调节算法与常用调节算法的有效性和计算效率.理论分析与实验结果表明,同时调节模型是一正确且有效的多参数调节模型. 相似文献

20.

可能性空间中学习过程一致收敛速度的界 总被引：5，自引：0，他引：5

哈明虎王鹏《河北大学学报(自然科学版)》2004,24(1):1-6

在概率空间上统计学习理论是机器学习的重要组成部分.在概率空间上统计学习理论中一致收敛速度的界有重要的意义,利用经验风险最小化原则,这些界决定了学习机器的推广能力.本文在可能性空间中讨论了学习过程一致收敛速度的界,给出了一致收敛速度的界的估计并讨论了这些界和函数集容量之间的关系. 相似文献