首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。  相似文献   

2.
用于不平衡数据分类的模糊支持向量机算法   总被引:1,自引:0,他引:1  
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题.  相似文献   

3.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

4.
为准确预测东部某油田机械钻速,在针对该油田某井机械钻速影响因素分析的基础上,根据现场经验对不同直径PDC钻头的机械钻速进行分级,运用随机森林算法、K近邻算法、支持向量机算法建立机械钻速分类预测模型,并运用遗传算法优化模型参数,得到了满足施工设计及现场作业需要的机械钻速分类预测方法。结果表明,运用遗传算法优化后的随机森林模型预测机械钻速分类准确率为82.1%,明显高于K近邻算法和支持向量机算法,该方法可指导该区块钻井施工参数优化,以提高钻井施工效益。  相似文献   

5.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

6.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

7.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

8.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

9.
类别不平衡数据的分类问题是数据挖掘及机器学习过程中的一个研究热点,基于代价敏感学习方法通常用于解决类别不平衡数据分类问题,然而,它在实际应用过程中通常因样本的误分类成本未知而受到限制.针对此问题,文中采用群体智能算法优化样本的误分类代价.果蝇优化算法(Fruit fly optimization algorithm,F...  相似文献   

10.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

11.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

12.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

13.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

14.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

15.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

16.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。  相似文献   

17.
引入了一种能较好容忍噪声,且稳定性较高的组合分类器算法———随机森林(RF),建立企业信用评估模型;着重分析了适合RF的不平衡分类问题的处理方法,并介绍了模型参数的优化.通过与神经网络和支持向量机的对比实验,证实了该方法的有效性和优越性.  相似文献   

18.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

19.
20.
针对不平衡数据分类问题,提出了一种带有间隔感知标签分布损失函数的支持向量机,称为基于间隔放大损失的支持向量机(support vector machine with margin magnification loss,MM-SVM)。考虑各类样本的分布情况以及数据不平衡比,设计了一种间隔放大损失函数,最小化基于间隔的泛化误差界;将间隔放大损失函数应用于SVM模型中,增强了少数类样本对分类超平面的影响,实现对少数类样本的准确分类。在Keel和UCI数据库上的实验表明,MM-SVM在不平衡数据分类精度和时间效率上均优于其他5种对比方法,实现了对不平衡数据的有效分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号