共查询到20条相似文献,搜索用时 28 毫秒
1.
2.
大间隔分布学习机(LDM)在应用于不平衡据分类时,由于忽略类别不均衡,会使少数类样本的识别率较低。针对这一不足,结合代价敏感思想提出了一种不平衡代价敏感大间隔分布算法(ICS-LDM)。首先,在计算间隔均值和间隔方差时,结合数据集的不平衡因子和样本错分代价参数,调整不同类别的间隔分布权重;其次,将可以快速收敛的循环对偶坐标下降法应用于求解目标函数;最后,通过逐渐提高少数类的间隔分布,可以实现间隔分布在各类别平衡且总体最大。在虚拟数据集和UCI公开数据集上的实验结果表明,ICS-LDM可以有效提高少数类的分类精度,平衡各类的分类性能。 相似文献
3.
《华中科技大学学报(自然科学版)》2010,(10)
提出了一种自适应代价优化算法ACO,利用"登山式"方法查找最适合重采样数据子集的最优误分类代价值用于建立基分类器,克服了固定式误分类代价不尽科学和客观的缺点,利用重采样技术实现了数据集样本不足时的分类器训练.通过"投票"方式对原始数据集中的实例重新标记类标,学习得到一个适应于类分布不均衡数据集的自适应的集成分类器.实验证明,用自适应代价优化算法实现的分类器在类分布不均衡的数据集上的分类性能明显优于CSC,MetaCost和naive Bayes等建立的分类器. 相似文献
4.
一种基于投票的不平衡数据分类集成算法 总被引:1,自引:1,他引:0
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。 相似文献
5.
6.
《西安交通大学学报》2017,(8)
为解决由多个二类代价敏感算法扩展而成的多类算法存在时间复杂度高和不能区分错分代价的问题,提出一种采用多类代价指数损失函数的多类代价敏感AdaBoost算法(MCCSADA)。为保证算法的代价敏感特性,首先设计一种满足代价敏感损失函数设计准则的多类代价敏感指数损失函数;然后将此损失函数作为评价分类器性能的标准,以最小化损失函数为目的使用逐步叠加模型推导算法的最优基分类器加权系数;最后使用多类代价损失函数和最优基分类器加权系数求解公式替换多类AdaBoost算法的损失数和加权系数求解公式,得到代价敏感的MCCSADA算法。使用UCI数据集对算法进行验证,实验结果表明:算法的稳定性得到了提升,退化现象被减弱;相比于由两类代价敏感算法通过一对一方法扩展而来的多类代价敏感算法,MCCSADA算法在大多数情况下能够取得更低的代价,而且具有较低的时间复杂度,在3类数据集上的时间复杂度降低约40%,并且随着类别数的增多效率提升更加明显。 相似文献
7.
基于非平衡数据的随机森林分类算法改进 总被引:1,自引:0,他引:1
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。 相似文献
8.
胡小生 《佛山科学技术学院学报(自然科学版)》2013,(5):22-26
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率. 相似文献
9.
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高. 相似文献
10.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。 相似文献
11.
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率. 相似文献
12.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。 相似文献
13.
《烟台大学学报(自然科学与工程版)》2021,(2)
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。 相似文献
14.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能. 相似文献
15.
刘剑桥 《阜阳师范学院学报(自然科学版)》2018,(2)
本文提出了一种针对类分布不平衡数据流的分类算法。首先,针对数据流的类分布不平衡,采用改进的重采样方法,建立平衡的训练子集;然后,采用支持向量机在平衡的训练子集上建立基分类器;最后,采用WE集成模型组合基分类器,构建不平衡数据流的集成分类器。该算法通过设定相邻数据块的F-value的差值大于等于某一阈值作为更新分类器的标准,同时在更新分类器时引入错分正类实例重新训练基分类器。实验结果表明该算法不仅对正类有较好的分类性能,对整体也有较好的分类性能。 相似文献
16.
以Tr Adaboost算法为基础,提出了一个针对不平衡数据的二分类迁移学习算法Unbalanced Tr Adaboost(UBTA).UBTA算法利用不同类别的Precision-Recall曲线下的面积auprc(the Area Under the Precision-Recall Curve)计算弱分类器权重,对不同类别的样本采取不同的权重更新策略;AUC指标对数据分布变化不敏感,结合G-mean和BER能更准确地评估不平衡分类算法的性能.实验结果表明,UBTA具有较好的分类性能,既能提升对少数类的关注,又能保持多数类的分类准确度. 相似文献
17.
在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法. 相似文献
18.
Boosting算法中基分类器权重的动态赋值 总被引:3,自引:1,他引:2
Boosting是一种有效的分类器组合方法,其通过加权投票来组合多个基分类器进行分类.在对基分类器进行权重赋值时,该算法采用了以基分类器在当前训练集上的错误率的某种变形来对基分类器进行权重赋值,这是一种静态的赋值方法.介绍一种动态地对基分类器进行赋权重的方法,这种方法利用当前测试实例属于某个被错误分类数据子集的程度,并按照程度的大小给相应的基分类器赋适当的权重.跟静态赋权重相比,这种方法考虑了测试实例属性取值的不同,进而能动态地调整基分类器的权重,从而达到进一步优化分类性能的目的.实验表明,动态权重赋值的方法在大多数情况下跟静态赋值相比具有更好的分类性能. 相似文献
19.
《华东理工大学学报(自然科学版)》2016,(1)
目前大部分分类器都是以分类正确率来衡量性能,这种评价标准都是基于理想情况下所有错误分类代价都是相同的。但实际生活中往往不同的错误分类会带来不同的损失,因此代价敏感学习成为模式识别中一个热点研究领域。本文将代价敏感思想与矩阵型学习机相结合,提出了一个矩阵型多类代价敏感分类器模型。通过与其他分类器在常用数据集上的对比实验证明,该方法降低了错误分类代价,提高了少数类或代价高类别的分类正确率,并可以在有效次内收敛,是一个有效且实用的方法。 相似文献
20.
针对传统分类模型在实际应用中对提取到的不平衡数据特征进行分类时分类结果精度低的问题,提出使用蜉蝣算法(Mayfly Algorithm, MA)优化的BP神经网络分类模型。同时为了提升算法前期全局搜索能力和后期局部搜索能力,引入阻尼比系数和非线性惯性权重因子,构建出改进蜉蝣算法(Improved Mayfly Algorithm, IMA)优化的BP神经网络(IMA-BP)分类器。根据该分类器分类具有随机的特点,引入集成学习中的投票(Voting)机制,将IMA-BP作为弱分类器,将各弱分类器的分类结果通过软投票方法融合,构成了一个Voting机制的IMA-BP分类模型。为验证分类模型的性能,使用UCI 数据库中的数据集将该模型与其他的模型进行比较,结果表明Voting机制的IMA-BP分类模型对4个数据集的分类准确率分别为88.67%、96.67%、91.25%、93.52%,都要高于其他模型,说明该分类模型具有较好准确性和可行性,对一些分类任务具有较强的指导作用和应用价值。 相似文献