首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 499 毫秒
1.
组合分类器的经典算法AdaBoost即自适应Boosting算法是提高预测学习系统预测能力的有效工具.针对传统BP(Back Propagation,BP)神经网络在变压器故障诊断时存在不稳定和网络易陷于极小值等缺点,将AdaBoost扩展算法AdaBoost.M2与BP神经网络结合,形成基于Ada-Boost.M2-NN(AdaBoost.M2Neural Network)的变压器故障诊断模型.利用AdaBoost的集成提升作用,在一定程度上弥补了BP算法的不足.仿真结果表明:该模型不仅能将单个BP神经网络无法识别的样本类别识别出来,而且还能整体上相比BP神经网络和传统三比值法将识别率提高11.5%,说明其具有可行性.  相似文献   

2.
《漳州师院学报》2022,(2):16-23
有效的信用风险预警可以降低电商商务活动中的风险,促进电子商务的发展。以极限学习机为基分类器的集成模型适用于电子商务企业信用数据样本少,维度高的特点;通过对少数类样本过采样缓解类别不平衡问题,进一步提高模型预测准确率。实证分析表明,基于类别平衡校正的集成极限学习机能够对企业风险预警等级作出有效的预测,且结果优于现有的基于传统机器学习算法及对应的集成模型,对提升电子商务风险预警效果有积极作用。  相似文献   

3.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

4.
增量聚类算法可以解决数据量大、内存不足的问题.传统的增量式模糊聚类(incremental multiple medoids based fuzzy clustering, IMMFC)算法只为每个数据块选择一个或多个相同数目的中心,当聚类中的对象权重较小时聚类效果不好.该文提出新的增量式模糊聚类算法用于处理大数据集.首先将大数据集分成多个小的数据块,并对每个小的数据块进行模糊聚类;然后从每个小数据块的每个簇群中选择目标中心点,中心点的个数是簇群中对象的权重之和大于阈值的最少对象数.最后合并所有选定的中心点,并对最终数据块进行模糊聚类,获取最终的中心点.实验结果表明,与IMMFC算法相比,当数据块占总数据的10%以上时,所提算法优于IMMFC.  相似文献   

5.
6.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

7.
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集成算法. 该算法利用频繁模式挖掘的原理,将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储分类结果,然后从中挖掘频繁基分类器组成最终的集成分类器,达到选择性集成的目的. 实验结果表明,与集成分类算法Bagging、AdaBoost、WAVE 和RFW 相比,该算法减小了集成分类器的规模,提高了集成分类器的分类精度和分类效率.  相似文献   

8.
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。  相似文献   

9.
集成学习主要分为串行和并行学习方法.并行学习的优势在于分类器的并行学习和融合,对分类问题通常采用的融合策略为投票法或堆叠学习法,它们的代表分别为随机森林和堆叠泛化Stacking.为了进一步提高Stacking的分类性能,在经典Stacking算法原理的基础上,提出基于随机森林的多阶段集成学习方法,以随机森林作为基层的基学习算法,以投票法和学习法同时作为融合方法,来降低泛化误差.在UCI数据集上的实验结果表明,提出的模型在Accuracy和1F指标上,相比Bagging,随机森林和Stacking等分类器在分类性能上有很大的提升.  相似文献   

10.
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。  相似文献   

11.
缺失值数据是目前研究数据分析的一个重要领域,随着智能医疗的迅速发展,如何充分利用海量数据挖掘出其中的重要信息,对隐藏的疾病做出预测并进行提早的干预治疗显得尤为重要.但在实际预测中,经常面对不完备数据集,从心脏病数据集出发,基于随机森林算法加以贝叶斯优化算法动态调参,提出心脏病缺失值补足算法.以准确率ACC作为算法的评判依据,通过精度和时间2个方面进行验证,4种算法对比实验结果表明,提出的算法具有更准确的填补效果.  相似文献   

12.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

13.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

14.
基于Stacking集成学习的流失用户预测方法   总被引:1,自引:1,他引:0  
利用机器学习算法对商业活动中普遍存在的客户流失问题进行预测.借鉴了Bagging的自助采样法思想,提出了一种基于自助采样法的Stacking集成方法.首先对数据集进行多次采样并加入属性扰动,然后使用所得数据子集训练基分类器副本,基分类器决策结果由基分类器所对应的副本投票决定.最后在真实数据集中进行流失客户预测实验,结果显示,该文提出的方法在准确率、查准率和F1值3项指标上均好于所有基分类器和同结构的经典Stacking集成方法.  相似文献   

15.
为了在动态环境中快速地跟踪变化后的最优解集,提出一种基于聚类预测模型的动态多目标优化算法.通过对种群聚类,提高预测解集的分布性与广泛性,为分段预测做准备,然后利用历史信息对每个子类的中心点和形状进行预测,在环境变化后,预测产生的每个子类共同构成整个新的初始种群,有引导性地增加了种群的多样性,使算法能快速跟踪新的最优解集.在标准动态测试问题上进行算法测试,实验结果表明所提算法能快速地适应环境的动态变化,所获解集具有较好的收敛性和分布性.  相似文献   

16.
基于数据挖掘与机器学习的蛋白质疏水性分析的研究   总被引:1,自引:0,他引:1  
蛋白质的疏水性对蛋白质的稳定性、构象和蛋白质功能具有重要意义,通过数据挖掘中的机器学习算法实现了将一个数据集中已知疏水性的多个蛋白质样本数据,分配给具有特征值的各个目标类.将这些已知其特定类归属的数据作为KNN,LR,决策树,SVM四类分类器的训练集,利用这些已知数据训练后的分类器来处理未知疏水性的蛋白质数据,最终判断该数据的分类.该算法对蛋白质疏水性的预测,其准确率可达90%以上.  相似文献   

17.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

18.
【目的】为了能实时预测PM2.5的浓度。【方法】采用多种集成学习的方法进行模拟预测。传统的预测方式多采用深度学习或普通传统改进的机器学习算法,只考虑多种污染物浓度产生的影响,而忽略了其他气象因素对PM2.5预测的影响。因此,传统的预测方式在预测精度上有着很多不足。【结果】本研究以哈尔滨近7年的气象数据和大气污染物浓度为数据集,通过皮尔逊相关系数法来提取主要特征,并过滤掉小于0.5的影响因子,同时使用多种集成学习方法对PM2.5进行预测,观察不同集成学习方法对PM2.5预测的准确度。【结论】试验结果发现,GBDT模型的拟合效果对新数据的泛化效果最好,其MSE为334.204 6、RMSE为18.281 3、MAPE为83.438 9、SMAPE为50.616 9。  相似文献   

19.
针对机器学习算法中的过拟合问题,提出一种基于支持向量数据描述的深度学习神经网络模型.在高效利用深度学习的表达能力的基础上,通过在分类中获取最大间隔的方式,解决不可见数据模型的精度较差的问题,具有非常好的泛化性能.仿真结果表明,提出的模型可以学习多类数据,同时大幅度降低过拟合.  相似文献   

20.
针对心脏病预测难的问题,提出了一种基于特征组合和卷积神经网络的心脏病预测方法。通过特征工程对数据进行预处理,减少噪声干扰;使用特征组合算法增强样本属性关联,生成特征矩阵;设计卷积神经网络对特征矩阵进行更高级抽象。该方法在UCI Heart Disease数据集上达到了0.898 9的预测精度,优于SVM、集成学习等传统机器学习方法,可作为相关领域专家判断的重要参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号