首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
《河南科学》2017,(8):1227-1231
针对不均衡数据集下分类超平面偏移导致直推式支持向量机样本标记准确率低的问题,结合动态代价和TSVM算法,提出一种代价敏感的TSVM算法,该算法依据类样本的空间分布信息计算类错分代价,利用KKT条件选择对当前分类超平面有影响的样本加入下一轮迭代,该算法可以提高初始分类器的分类性能,减少错误的传递和累积,从而提高标注准确率,增强最后分类器的泛化性能.最后在UCI数据集上的实验结果表明该算法在不均衡数据集下的有效性.  相似文献   

2.
张燕 《河南科学》2018,(1):11-16
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率.  相似文献   

3.
针对入侵检测的代价敏感主动学习算法   总被引:3,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

4.
提出一种降低误分类代价的权值分布优化算法,其核心思想是在连续的提升过程中获得一系列的弱分类器,根据训练实例代价因子的大小及分类的结果不断更新训练集的分布,以减小累积的误分类代价。验证明这种改进后的算法减小了累积误分类代价。  相似文献   

5.
类别不平衡数据的分类问题是数据挖掘及机器学习过程中的一个研究热点,基于代价敏感学习方法通常用于解决类别不平衡数据分类问题,然而,它在实际应用过程中通常因样本的误分类成本未知而受到限制.针对此问题,文中采用群体智能算法优化样本的误分类代价.果蝇优化算法(Fruit fly optimization algorithm,FOA)是一种全局优化群智能算法,该算法具有原理简单、调节参数较少、收敛速度较高等优点.本研究首先提出了一种基于动态调整寻优步长的果蝇优化算法;其次,利用此果蝇优化算法良好的全局和局部搜索性能,对类别不平衡数据中样本的误分类代价进行了优化;最后,将改进果蝇优化算法学习样本误分类代价的策略应用到乳腺组织数据集的分类研究中.实验结果表明,本算法对类别不平衡数据的分类结果较好,能够有效的识别正、负两类样,解决了因误分类成本的先验信息无法直接获取而使基于代价敏感的不平衡数据分类方法使用受限的问题.  相似文献   

6.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类。可以将代价敏感用于分类器的训练;但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数;并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好地处理不平衡数据。  相似文献   

7.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

8.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

9.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

10.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

11.
不均衡数据分类算法的综述   总被引:3,自引:1,他引:2  
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的.因此,传统分类器分类性能通常比较有限.从数据层面和算法层面对国内外分类算法做了详细而系统的概述.并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题.  相似文献   

12.
为了解决传统分类算法在不平衡样本集上分类效果不佳的问题,提出一种新的欠采样boosting集成算法(FECBoost).首先,通过改进的模糊熵反映样本集原始分布的不确定性,并用此模糊熵判断多数类样本所在的区域,称为安全区域或边界区域;其次,利用密度峰值聚类算法选取安全区域的代表性样本以减少分类器的训练时间和样本间的重叠,降低样本的不平衡度,实现静态欠采样;最后,训练新的boosting集成分类器,在算法每一次迭代之前,基于模糊熵和模糊支持度对多数类样本再次欠采样,使用于训练的样本集达到平衡.该动态欠采样依赖于分类器的训练过程,充分考虑了样本分布的不确定性和错分可能性.通过在真实样本集上的仿真实验验证了提出方法的有效性.  相似文献   

13.
本文提出了一种针对类分布不平衡数据流的分类算法。首先,针对数据流的类分布不平衡,采用改进的重采样方法,建立平衡的训练子集;然后,采用支持向量机在平衡的训练子集上建立基分类器;最后,采用WE集成模型组合基分类器,构建不平衡数据流的集成分类器。该算法通过设定相邻数据块的F-value的差值大于等于某一阈值作为更新分类器的标准,同时在更新分类器时引入错分正类实例重新训练基分类器。实验结果表明该算法不仅对正类有较好的分类性能,对整体也有较好的分类性能。  相似文献   

14.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

15.
传统的大数据分类算法采用神经网络分类器、模糊C均值分类器等,频率点的集中不适合进行数据分类频点的采样去除,限制了分类的准确性和抗干扰能力,无法有效去除冗余信息,收敛性不好。本文提出一种基于模糊C均值(FCM,Fuzzy c-means)混沌概率特征聚类的大数据高效分类算法,根据混沌差分进化算法的全局搜索性寻找聚类中心的最佳值,得到大数据库耦合预测的最优控制输入序列和最优目标函数,利用混沌变量的非线性随机性、遍历性,进行分类中心遍历,建立数据点之间的拓扑关系,实现分类算法改进。仿真结果表明,采用该算法能有效提高大数据分类的准确性,误分率降低。  相似文献   

16.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

17.
针对非平衡数据集分类中"少数类样本精度难以提高"这一瓶颈问题,提出了一种基于协同进化机制的欠采样方法.此方法将少数类样本与多数类样本划分为两类种群,采用种群协同进化原理,利用提出的动态交叉变异算子自适应协同进化过程,实现种群间自动调节和自动适应.仿真试验结果表明,此采样方法增强了局部随机搜索能力,改善了种群的分布特性,加强了算法的全局收敛能力,在不降低多数类样本分类性能的基础上有效提高了少数类样本的精度.与其他经典重采样方法相比,本文办法抗噪能力好,具有更强的鲁棒性.  相似文献   

18.
大间隔分布学习机(LDM)在应用于不平衡据分类时,由于忽略类别不均衡,会使少数类样本的识别率较低。针对这一不足,结合代价敏感思想提出了一种不平衡代价敏感大间隔分布算法(ICS-LDM)。首先,在计算间隔均值和间隔方差时,结合数据集的不平衡因子和样本错分代价参数,调整不同类别的间隔分布权重;其次,将可以快速收敛的循环对偶坐标下降法应用于求解目标函数;最后,通过逐渐提高少数类的间隔分布,可以实现间隔分布在各类别平衡且总体最大。在虚拟数据集和UCI公开数据集上的实验结果表明,ICS-LDM可以有效提高少数类的分类精度,平衡各类的分类性能。  相似文献   

19.
【目的】针对标准协同训练中视图分割不充分冗余导致两个分类器误差累积加大,且两个分类器对同一个未标记样本分类不一致的问题,提出了结合信息增益率和K-means聚类的协同训练算法。【方法】该算法先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,再在每次分类过程中应用K-means聚类确定标记不一致样本点的最终类别。【结果】通过在9个UCI数据集上的3组实验表明,与对比算法相比,所提算法中两视图分类器的平均正确率差值降低了2.9%,有效均衡了分类器性能,同时在分类准确率和算法稳定性上也有较大提升。【结论】利用信息增益率将关键特征均衡划分到两个视图,有效解决了视图分割不充分冗余问题;K-means聚类重新分类标记不一致的样本,降低了样本被误分类的概率。  相似文献   

20.
针对数据集中类样本不均衡、样本标注代价大的问题,结合聚类算法、委员会投票思想和TSVM算法,提出一种基于聚类和协同标注的TSVM算法,该方法利用聚类算法进行子集划分,保证每个子集都包含良好的空间信息,对样本的标注采用多个分类器进行投票,提高标记准确率,减少错误的累积和传递,提高标注准确率,增强最后分类器的泛化性能.KDDCUP99数据集上的实验结果表明该方法对未知攻击有较高的检测准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号