首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类。可以将代价敏感用于分类器的训练;但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数;并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好地处理不平衡数据。  相似文献   

2.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

3.
针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。  相似文献   

4.
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.  相似文献   

5.
黄富幸  韩文花 《科学技术与工程》2023,23(27):11698-11705
针对传统分类模型在实际应用中对提取到的不平衡数据特征进行分类时分类结果精度低的问题,提出使用蜉蝣算法(Mayfly Algorithm, MA)优化的BP神经网络分类模型。同时为了提升算法前期全局搜索能力和后期局部搜索能力,引入阻尼比系数和非线性惯性权重因子,构建出改进蜉蝣算法(Improved Mayfly Algorithm, IMA)优化的BP神经网络(IMA-BP)分类器。根据该分类器分类具有随机的特点,引入集成学习中的投票(Voting)机制,将IMA-BP作为弱分类器,将各弱分类器的分类结果通过软投票方法融合,构成了一个Voting机制的IMA-BP分类模型。为验证分类模型的性能,使用UCI 数据库中的数据集将该模型与其他的模型进行比较,结果表明Voting机制的IMA-BP分类模型对4个数据集的分类准确率分别为88.67%、96.67%、91.25%、93.52%,都要高于其他模型,说明该分类模型具有较好准确性和可行性,对一些分类任务具有较强的指导作用和应用价值。  相似文献   

6.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

7.
基于粒子群优化算法提出了一种通过优化支持向量机模型参数,建立更佳的支持向量机数学模型的方法. 针对双螺旋分类问题,分别利用基于粒子群优化算法所建立的支持向量机分类器和标准支持向量机分类器进行了仿真实验,利用所建立的评价体系对仿真实验所获得的实验数据进行了评估,评估结果表明基于粒子群优化算法的支持向量机分类器明显优于标准支持向量机分类器,其分类结果表明基于粒子群优化算法的支持向量机分类器提高了分类结果的准确性,同时也验证了基于粒子群优化算法的支持向量机分类器在数据分类中的有效性.   相似文献   

8.
随机森林是一种高效的分类算法,其模型中的投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,从而降低准确度,而且模型中的决策树棵数及其他参数通常难以选取.为解决此问题,在投票时将每棵决策树乘以一个与其训练精度成正比的权重,并采用粒子群算法优化随机森林模型,通过迭代优化选取模型中包含的参数.通过UCI数据库进行验证,结果显示提出的加权随机森林模型分类正确率高于一般的随机森林算法及传统的分类算法.  相似文献   

9.
【目的】由于AdaBoost算法弱分类器对各待测样本其投票权重是固定不变的,这会导致使用该算法进行分类时准确性不高,于是针对该问题提出了一种结合静态权重与动态权重的学习算法AdaBoost_DW。【方法】该算法保留了AdaBoost算法训练阶段产生的全部弱分类器,在预测阶段加入了能度量待测样本与各个弱分类器适应性的动态权重,通过双权重共同决定该弱分类器的投票权重。【结果】实验结果表明,AdaBoost_DW算法的分类精度绝大多数情况下高于原AdaBoost算法。【结论】证明了动态权重的加入能够提高原AdaBoost算法在各数据集上的分类准确率。  相似文献   

10.
针对单一的分类器用于旋转机械故障诊断时存在准确率不高的问题,提出一种基于随机森林算法的旋转机械齿轮组故障诊断方法。该方法利用随机森林多分类器组合决策树的思想,通过多分类器的组合学习提高故障诊断的准确率,并在风力涡轮动力传动系统故障诊断模拟器系统上进行了多工况多故障的实验验证。首先,收集多工况、多故障的齿轮传感器信号,提取传感器信号的时域特征作为随机森林的输入特征量。然后,利用构建好的随机森林模型进行齿轮组的故障诊断,并将随机森林算法的分类结果与支持向量机方法的分类结果进行对比。通过对故障诊断结果的分析,随机森林算法避免了复杂的寻参过程和传统分类器的过拟合现象,能够处理大规模数据集,通过分类器的组合,提高了故障诊断准确率,并缩短了分类模型的预测时间,具有较好的应用前景。  相似文献   

11.
针对数据不平衡导致的信用风险识别精度低的问题,利用随机欠采样算法对数据集平衡处理后,采用Logistic回归模型以及随机森林、决策树、XGboost和支持向量机等分类算法分别建立模型并进行预测。实证结果表明,随机欠采样算法可以将信用卡欺诈风险的预测精度从低于75%提升至85%以上,且G-mean和AUC等衡量非平衡数据分类性能的指标均有明显提高,该算法能够有效缓解数据不平衡导致的风险预测性能低下的问题。  相似文献   

12.
基于极限学习机(ELM)和粒子群优化(PSO)算法,建立一个新型排水管道结构性状况评价模型。采用PSO算法优化ELM中的输入权值矩阵和隐含层偏置,改善网络参数随机生成带来的分类精度偏低的问题。以上海市洋山保税港区排水管网为例,对分类器模型进行训练测试,并与ELM分类结果进行对比分析。结果表明,PSO-ELM算法以较少的隐含层神经元节点获得更高的分类精度,参数优化提高了模型拟合能力,对于城市排水管道结构性状况分类、判断具有可行性和有效性。  相似文献   

13.
为了有效地检测软件家族中的恶意软件,改进了加权随机森林模型,提出基于粒子群优化的随机森林(particle swarm optimization-random forest,PSO-RF)模型,并使用基于粒子群优化随机森林的恶意软件检测方法对恶意软件家族进行分类。对得出的结果与决策树、支持向量机等经典分类器从准确率、精确度、召回率、综合评价指标值(F1值)等指标进行对比分析,以验证改进后的算法的有效性与合理性。结果表明,PSO-RF模型评估指标均是最高的,能大大提升恶意软件的检测效果。  相似文献   

14.
Adaboost算法可以将分类效果一般的弱分类器提升为分类效果理想的强分类器,而且不需要预先知道弱分类器的错误率上限,这样就可以应用很多分类效果不稳定的算法来作为Adaboost算法的弱分类器。由于BP神经网络算法自身存在的局限性和对训练样本进行选择的主观性,其分类精度以及扩展性有待提高。将Adaboost算法与BP神经网络相结合,使用神经网络分类模型作为Adaboost算法的弱分类器。算法在matlab中实现。对2个UCI的分类实验数据集进行实验,结果表明Adaboost能有效改善BP神经网络的不足,提高分类正确率和泛化率。  相似文献   

15.
基于属性相似度的云分类器   总被引:4,自引:0,他引:4  
提出了属性相似度概念解决高维对象分类的权重问题,并结合云理论建立了基于属性相似度的云分类器.采用云理论建立训练集的各属性模型,表达各属性值隶属于其类别中心Ex的程度.分类模型由属性模型集成得到,属性权重根据属性相似度计算.各类别的同一属性间的相似度越大,此属性对分类的作用越小.基于粒子群优化方法对分类模型的中心位置Ex进行优化.将此分类器与普通云分类器应用于iris数据集的分类实验,该分类器的分类效果好于后者.  相似文献   

16.
提出一种基于聚类的启发式选择性集成学习算法.集成学习通过组合多个弱分类器获得比单一分类器更好的学习效果,把多个弱分类器提升为一个强分类器.理论上来说弱分类器的个数越多,组合的模型效果越好,但是随着弱分类器的增多,模型的训练时间和复杂度也随之递增.通过聚类的方法去除相似的弱分类器,一方面有效降低模型的复杂度,另一方面选出差异性较大的弱分类器作为候选集合.之后采用启发式的选择性集成算法,对弱分类器进行有效的组合,从而提升模型的分类性能.同时采用并行的集成策略,提高集成学习选取最优分类器子集效率,可以有效地减少模型的训练时间.实验结果表明,该算法较传统方法在多项指标上都有着一定的提升.  相似文献   

17.
Adaboost算法可以将分类效果一般的弱分类器提升为分类效果理想的强分类器,而且不需要预先知道弱分类器的错误率上限,这样就可以应用很多分类效果不稳定的算法来作为Adaboost算法的弱分类器。由于BP神经网络算法自身存在的局限性和对训练样本进行选择的主观性,其分类精度以及扩展性有待提高。将Adaboost算法与BP神经网络相结合,使用神经网络分类模型作为Adaboost算法的弱分类器。算法在matlab中实现。对2个UCI的分类实验数据集进行实验,结果表明Adaboost能有效改善BP神经网络的不足,提高分类正确率和泛化率。  相似文献   

18.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。  相似文献   

19.
针对贝叶斯网络分类器在处理多属性分类问题时,存在分类精度下降、算法运行时间过长等问题,提出一种判别类条件贝叶斯网络模型。该模型在类条件贝叶斯模型的基础上,将条件对数似然函数以对数形式重新参数化,并使用量子粒子群优化算法最大化目标函数。新模型采用判别参数学习方法,直接计算条件概率,对于分类问题更加高效。本研究将判别类条件贝叶斯网络模型与TAN分类器相结合,使用量子粒子群算法进行优化,用于对液体火箭发动机的故障诊断与分类中。针对某型号火箭的仿真数据进行故障诊断与分类,与传统的贝叶斯分类器相比,改进的分类器在处理分类问题时,准确率和学习效率更高。  相似文献   

20.
为了进一步提高孪生支持向量机(Twin support vector machine, TWSVM)的自然语言文本分类准确度,提出了一种改进的粒子群优化(Particle swarm optimization, PSO)算法,并采用改进的PSO算法对TWSVM核心参数进行优化。根据迭代次数来选择自适应权重从而对传统PSO算法进行改进,以防止收敛速度过快而错过全局最优解。采用Word2Vec对自然语言样本进行向量化处理,并通过PSO算法对TWSVM惩罚因子进行优化求解,解决因为惩罚因子设置不合理而造成自然语言文本分类准确率不高的问题。试验证明,通过合理设置PSO算法的速度权重初始值和稳定值,结合自适应递减权重策略,能够获得较高的惩罚因子优化性能,从而提高TWSVM的分类准确率,相比于常见自然语言文本分类算法,PSO-TWSVM的分类准确率更高,均方根误差值更低,在自然语言文本分类中的适用度高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号