首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对动态数据流的在线学习问题,传统的在线BLS(Broad Learning System)算法无法准确地捕捉数据最新的变化趋势。为此提出两种具有遗忘机制的在线BLS算法——基于遗忘因子的在线BLS算法(FF-OBLS:Online Broad Learning System based on Forgetting Factor)和基于滑动窗口的在线BLS算法(SW-OBLS:Online Broad Learning System based on Sliding Window)。FF-OBLS在在线学习过程中通过为旧样本添加遗忘因子以体现新旧样本对学习模型的不同贡献,SW-OBLS在在线学习过程中通过删除旧样本以消除旧样本对学习模型的影响,从而使学习模型对动态数据流的后续趋势做出更准确的分析和预测。为验证提出的两种在线BLS算法的有效性,使用动态回归数据集进行实验。实验结果表明,具有遗忘机制的在线BLS模型在预测精度和时间开销上均优于传统在线BLS模型,更适合处理动态数据流问题。  相似文献   

2.
将基于单隐层前馈神经网络(SLFN)提出的极速学习机(ELM)算法和邻域粗糙集理论进行结合,提出基于邻域粗糙集的极速学习机算法,采用邻域粗糙集对样本集进行属性约简,去掉冗余属性,利用ELM对约简后的数据集进行学习,并对数据样本进行预测。实验表明ELM算法相比具有更高的训练精度和测试精度。  相似文献   

3.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

4.
针对在识别框架不确定时基本概率分配(BBA)生成困难的问题,提出一种基于聚类特征的基本概率分配生成方法,以减弱对样本长度的依赖性,并分析2种情况下的BBA生成。在框架未知时,通过聚类分析获得各个类别的聚类特征,建立样本属性的聚类特征区间模型;在框架已知时,获取聚类特征,建立样本属性的聚类特征区间模型;然后用各个区间模型之间的距离表示样本属性之间的差异,在此基础上建立了一种相似度的度量方法;最后对相似度进行归一化得到BBA。采用Iris数据集和Wine数据集的实验结果表明:所提方法对样本长度敏感程度低,对Wine数据集的一个类的分类结果达到100%。将该方法应用于某煤化工企业压缩机组子系统状态监测信息数据集,实现了监测信息状态的识别。  相似文献   

5.
为提高风险预测系统的易用性和可解释性,提出基于自组织映射网络(SOM)改进的即时学习(JITL)风险预测框架。首先,应用SOM对数据样本进行聚类,并对聚类特征进行解释。进而,通过基于聚类结果的样本选择算法构建待测数据的相似样本集,在线上调用作为基学习器的支持向量机(SVM)进行建模并输出风险预测结果。最后,采用一个交通事故数据集对风险模型的性能进行测试,检验其精度、易用性和可解释性。结果表明:采用SOM-JITL策略的SVM模型,受试者工作状况曲线面积指标达到0.720,相比不使用该策略的传统SVM模型提高17.5%,精度较高;SOM-JITL模型构建所需参数调节工作少,具有较好的易用性;此外,SOM聚类结果准确识别出处于交通拥堵等高风险场景,与现实场景一致,具有可解释性。综上,SOM-JITL策略能有效提高基学习器的性能,达到精度、可解释性和易用性的平衡,有助于以低成本大规模推广风险预测系统。  相似文献   

6.
提出基于极限学习机(ELM)的脉动风速预测新模型.运用自回归滑动平均模型生成脉动风速数据库,并将其分为训练集和测试集.采用ELM对训练集进行学习训练,建立回归模型,从而实现对测试集风速的泛化预测.经与基于粒子群优化(PSO)的混合核函数最小二乘支持向量(PSO-MK-LSSVM)和误差反传神经网络(PSO-BP)对比,验证了ELM模型的有效性.数值结果表明,与PSO-MK-LSSVM和PSO-BP相比,无论在预测精度还是计算速度上,ELM模型都具有显著的优势.  相似文献   

7.
经典KNN算法在处理高维数据或样本数繁多的样本集时需要巨大的计算量,这使其在实际应用的过程中存在着一定的局限性;提出一种基于聚类和密度裁剪的改进KNN算法。在训练阶段,首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到若干个密度比较均匀的类簇并将其转化为超球。在测试阶段,采用两种方法,第一种是找出距离待测样本最近的k个超球,然后将这个k个超球内的训练样本作为新的训练样本集,在这个新的训练样本集上使用经典KNN算法得到待测样本的类别;第二种则是找出距离待测样本最近的1个超球,然后根据该超球的类别得出待测样本的类别。实验采用8个UCI样本集进行测试,实验结果表明,该算法同经典KNN相比具有良好的性能,是一种有效的分类方法。  相似文献   

8.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.  相似文献   

9.
单样本学习的目的是利用一个包含大量训练样本的源类别数据集以及每个类别只包含一个训练样本的目标类别数据集来构建一种学习算法,使得算法能够对目标类别空间中的样本进行准确分类.已有的单样本学习算法主要是先利用源类别数据来训练模型,然后在测试时将目标类别训练数据作为支持集来实现对未标注样本的分类,因此在训练时没有有效地利用支持集的信息.为此提出一种在训练阶段和测试阶段同时利用支持集信息的单样本学习算法,基本思想是利用孪生神经网络构建模型并在训练时加入支持集信息,即让不同类别的支持集样本之间的相似度尽可能小.在Omniglot数据集和满文识别问题上的实验结果表明,该算法能取得较好的识别准确率.  相似文献   

10.
传统即时通信隐藏检测方法主要采用基于监督学习的检测方式,导致部署前需大量复杂的人工预处理,同时训练数据集与测试数据集分布的差异会影响检测的准确率。针对以上问题,该文首先重点针对即时语音通信隐蔽信道提出了一种全新的半监督混合式检测模型,该模型不存在人工挑选与标注训练数据集的过程,解决检测操作人工预处理复杂和适用性差的问题;然后设计了基于自学习的多准则融合模块,用于自行生成伪标注数据集,其可信度和代表度共同决定了即时语音通信隐藏检测系统的性能,且不存在语音通信隐藏检测中训练与测试集分布失配的情况;最后针对即时语音通信中常见的低码率语音流载体进行实验分析,在失配状况下基于有监督的检测方法以及无监督检测方法相比,其准确率具有明显优势;当训练样本与测试样本的分布不匹配时,该方法相比有监督的检测方法所受的影响更小。同时,实验显示该方法可以适用于多种编码检测过程。  相似文献   

11.
为了减少在线最小二乘支持向量机(LSSVM)的计算量和存储空间,提出了一种在线稀疏LSSVM.这种LSSVM利用滑动时间窗中部分时刻的样本作为训练样本集.新时刻的样本总是加入训练样本集;每次删除样本时,若滑动时间窗最前端时刻的样本在训练样本集中,则删除它,否则从训练样本集中选择留一法预测误差最小的样本删除.与现有的在线LSSVM相比,这种在线稀疏LSSVM能用较少的样本学习系统较多的特性,能提高时空效率;与现有的在线稀疏LSSVM相比,它能摆脱陈旧样本的影响,更加适应系统的时变性.系统建模仿真实验表明,该在线稀疏LSSVM能节省时间和空间,具有较高的预测精度.  相似文献   

12.
针对不平衡难分类条件下空中目标群组意图快速识别的难题,提出一种基于滑动窗口估计的时空卷积自注意力网络模型的意图识别方法。该方法根据特征数据的特点对其使用滑动窗口的预先处理,通过时空卷积网络快速提取多维时序特征数据的流信息;然后采用自注意力机制捕捉每个特征数据的关键特征并优化权重。仿真结果表明该方法有效提升了不平衡样本中难分类样本意图识别的训练效率和分类的准确率。  相似文献   

13.
极速学习机(Extreme learning machine,ELM)虽然已在理论和应用中证实有很好的泛化性能和极快的训练速度,但是在处理非均衡数据时,它更偏向多数类且极容易忽略少数类,基于数据重采样的集成学习可以帮助ELM解决少数类分类精度低的问题.提出一种按类别重采样技术并据此发展了一种ELM集成学习方法.该方法可充分利用少数类样本的信息,实验结果显示该方法性能明显优于单一的ELM学习模型.由于重采样是大数据处理的最核心的技术之一,该方法对非均衡大数据的学习模型建立有着一般性的指导意义.  相似文献   

14.
基于全序列比对相似度预测信号肽   总被引:1,自引:0,他引:1  
针对信号肽预测问题,提出采用全序列比对度量序列相似度,以避免以往算法借助滑动窗将整个氨基酸序列分割成等长序列片断所导致的信息丢失及不平衡样本等问题.在此基础上证明基于全序列比对的相似度可嵌入欧式空间,进而借助支持向量机(SVM)进行分类预测.在目前广泛应用的Neilsen数据集上进行实验并与相关结果比较,结果表明所提出的算法确实可以保证稳定的高预测率.  相似文献   

15.
16.
为解决陈旧信息和波动性数据造成的传统灰色Verhulst模型预测精度较低的问题,提出一种利用滑动窗口和马尔科夫模型对原始灰色Verhulst模型改进的方法。通过长度可变的滑动窗口来实现数据的动态更新,使得灰色Verhulst动态模型的预测值更加接近最新的变化趋势。之后利用马尔科夫模型对得到的灰色Verhulst动态模型预测值进行修正,提高了模型的预测精度。实验结果表明,灰色马尔科夫Verhulst动态模型在滑坡形变预测中的预测平均相对误差相比于传统的灰色Verhulst模型降低了69. 6%,均方根差比降低了0. 39,小误差概率提高了0. 166 7。对于波动性较大的滑坡监测数据,灰色马尔科夫Verhulst动态模型预测精度优于传统灰色Verhulst模型。  相似文献   

17.
为了解决计算机深度学习时标注数据工作量大、准确度不高、耗时耗力等问题,需要将预先训练好的模型中的数据进行跨领域跨任务迁移学习。基于对不同数据集的迁移效果的研究,试验时将视觉领域中表现良好的ImageNet预训练模型迁移到音频分类任务,通过剔除无声部分、统一音频长度、数据转换和正则化处理这4个步骤,采用经典图像增强和样本混淆两种数据增强方法,以5种不同的方式训练数据集,实验证明:ImageNET目标训练模型的跨领域迁移学习效果显著,但源领域的模型效果和目标领域的最终效果并没有必然联系,且使用同领域相似数据分布的数据集的预训练效果比ImageNet上的预训练效果更差。  相似文献   

18.
由于过程数据通常具有时变性,规范变量分析(CVA)在动态过程系统的故障诊断中不能得到较好的故障诊断准确率,因此提出一种基于滑动窗的规范变量分析(MWCVA)算法.该算法首先建立初始的CVA模型和计算监控统计量,通过滑动窗更新过程变量数据,计算更新建模所需数据,不断实时地更新出新样本的CVA模型和监控统计量.通过对Tennessee-Eastman过程的仿真,对比CVA、MWPCA和MWCVA的故障诊断效果,验证所提出算法的有效性.  相似文献   

19.
20.
随着清洁能源替代和电力系统电力电子化的趋势增强,传统的基于理论模型的电力系统数值仿真方法将面临新的挑战,不依赖于元件模型的数据驱动型电网稳定评估方法逐渐受到重视.基于极限学习机(ELM)理论,提出适于在线应用的电力系统暂态稳定评估方法.首先,通过调节稳定和失稳仿真样本的比例进行样本筛选,减轻样本集中失稳样本较少而引起的样本不均衡现象,并引入递归特征消除法进一步处理样本集;然后利用交叉验证法优化ELM的网络结构,并用处理后的样本集进行ELM的训练;最后,根据神经网络的输出结果预测系统的稳定性,并改进泛化能力评价标准对结果的可靠性进行评估.算例分析表明,递归特征消除法可明显降低特征冗余度,改善模型性能,所提出算法的训练时间短且具有较高的预测准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号