首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

2.
大间隔分布学习机(LDM)在应用于不平衡据分类时,由于忽略类别不均衡,会使少数类样本的识别率较低。针对这一不足,结合代价敏感思想提出了一种不平衡代价敏感大间隔分布算法(ICS-LDM)。首先,在计算间隔均值和间隔方差时,结合数据集的不平衡因子和样本错分代价参数,调整不同类别的间隔分布权重;其次,将可以快速收敛的循环对偶坐标下降法应用于求解目标函数;最后,通过逐渐提高少数类的间隔分布,可以实现间隔分布在各类别平衡且总体最大。在虚拟数据集和UCI公开数据集上的实验结果表明,ICS-LDM可以有效提高少数类的分类精度,平衡各类的分类性能。  相似文献   

3.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类。可以将代价敏感用于分类器的训练;但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数;并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好地处理不平衡数据。  相似文献   

4.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

5.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

6.
在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法.  相似文献   

7.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

8.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

9.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

10.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

11.
提出一种适用于超多类手写汉字识别的新改型Adaboost算法,采用基于描述性模型的多类分类器(modified quadratic discriminant function,MQDF)作为Adaboost基元分类器,可直接进行多类分类,无需将多类问题转化为多个两类问题处理,其训练复杂度大大低于已有的多类Adaboost算法。算法提出根据广义置信度更新样本权重,实验证明这种算法适用于大规模多类分类问题。为了降低算法的识别复杂度,提出从所有训练后得到的Adaboost基元分类器组中选择一个最优的基元分类器作为最终分类器的方法进行删减。在HCL2000及THOCR-HCD数据集上进行实验证明,所提改型Adaboost算法提高了识别率的有效性,该算法的相对错误率比现有最优算法分别下降了14.3 %,8.1 %和19.5 %。  相似文献   

12.
针对传统分类学习算法的准确性现状进行了研究,提出了一种基于降噪自编码的组合分类算法(Ensemble Learning based on Denosing Autoencoder,ELDA).与Bagging、Adaboost以及Rotation Forest等传统的组合分类器学习方法不同,ELDA首先通过使用降噪自编码算法将数据集映射到新的特征空间,然后在此空间学习得到决策树作为基分类器,最后对数据集进行类别预测.通过与Bagging、Adaboost及Rotation Forest学习方法相比,结果表明:ELDA在预测精度上显著优于对比算法.  相似文献   

13.
针对朴素贝叶斯算法在处理不平衡数据时准确率不高的问题,提出类权重和属性值权重相结合的双重加权朴素贝叶斯算法.双重加权可降低算法的属性独立假设对分类结果的影响,提升少数类对分类过程的作用.乳腺癌患者复发率预测结果表明,双重加权朴素贝叶斯算法相对于传统的朴素贝叶斯算法、属性值加权的朴素贝叶斯、K最近邻分类算法、支持向量机分...  相似文献   

14.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

15.
一种改进的Adaboost训练算法   总被引:2,自引:0,他引:2  
针对传统的Adaboost训练算法在训练过程中可能出现训练退化和训练目标类权重分布过适应的问题, 提出一种改进的Adaboost训练算法. 改进算法通过调整加权误差分布限制目标类权重的扩张, 并且最终分类器输出形式以概率值输出代替传统的离散值输出, 提高了训练结果的检测率. 实验结果表明, 改进的Adaboost算法在Inria数据集上取得了较好效果.  相似文献   

16.
不均衡数据分类算法的综述   总被引:2,自引:1,他引:2  
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的.因此,传统分类器分类性能通常比较有限.从数据层面和算法层面对国内外分类算法做了详细而系统的概述.并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题.  相似文献   

17.
Adaboost算法可以将分类效果一般的弱分类器提升为分类效果理想的强分类器,而且不需要预先知道弱分类器的错误率上限,这样就可以应用很多分类效果不稳定的算法来作为Adaboost算法的弱分类器。由于BP神经网络算法自身存在的局限性和对训练样本进行选择的主观性,其分类精度以及扩展性有待提高。将Adaboost算法与BP神经网络相结合,使用神经网络分类模型作为Adaboost算法的弱分类器。算法在matlab中实现。对2个UCI的分类实验数据集进行实验,结果表明Adaboost能有效改善BP神经网络的不足,提高分类正确率和泛化率。  相似文献   

18.
Adaboost算法可以将分类效果一般的弱分类器提升为分类效果理想的强分类器,而且不需要预先知道弱分类器的错误率上限,这样就可以应用很多分类效果不稳定的算法来作为Adaboost算法的弱分类器。由于BP神经网络算法自身存在的局限性和对训练样本进行选择的主观性,其分类精度以及扩展性有待提高。将Adaboost算法与BP神经网络相结合,使用神经网络分类模型作为Adaboost算法的弱分类器。算法在matlab中实现。对2个UCI的分类实验数据集进行实验,结果表明Adaboost能有效改善BP神经网络的不足,提高分类正确率和泛化率。  相似文献   

19.
有效的特征提取是正确模式分类的基础.在Viola-Jones快速目标检测算法的基础上,侧重研究了类Haar特征原型的本质与提取,提出了类灰度图的概念,并以快速人脸检测为例,从类灰度图提取广义类Haar特征,从本质上拓展了类Haar特征的类型.基于类灰度图提取的广义类Haar特征在基于Adaboost的人脸检测系统性能超过Viola-Jones系统;作为弱分类器的滤波器构建是影响基于Adaboost分类算法性能的重要因素.  相似文献   

20.
在基于解决单类问题的支持向量数据描述算法基础上提出了基于聚类分布信息的c-SVDD算法.该算法对带野值的SVDD算法中的C值重新定义.通过增加核空间下测试样本的聚类分布信息。为每个样本定义一个特定的c值.c-SVDD算法适应于解决类别不平衡学习问题.该算法在保证少类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少类样本的处理要求.对UCI数据集和人工样本集进行实验.改进后的c-SVDD算法比带野值的SVDD算法AUC值平均提高0.14以上;比AdaBoost算法在正类查全率上平均提高40%,精确度也提高了至少5%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号