首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。  相似文献   

2.
带概念漂移不平衡流数据分类研究是机器学习和现实应用领域的一个难点和热点.针对带概念漂移不平衡流数据的动态性和不平衡性,本文中提出了随机平衡采样算法用于再平衡不平衡数据流.之后,在随机平衡采样算法的基础上提出了一种新的处理带概念漂移的不平衡流数据集成分类算法用于抵抗流数据的概念漂移和不平衡性.理论和实验表明本文中提出的集成分类算法对处理带概念漂移的不平衡流数据较强的多样性和泛化能力.  相似文献   

3.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

4.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

5.
提出了随机平衡数据采样算法,以此为基础对Ada Boost算法进行修改并构建了随机平衡集成分类算法,采用6组UCI数据集对随机平衡集成分类算法进行实验,并与SMOTEBoost算法、RUSBoost算法、AdaBoost算法进行比较.实验结果表明,随机平衡数据集成算法具有更好的分类性能,在处理不平衡数据集方面有一定的优势,具有较强的多元性和鲁棒性.  相似文献   

6.
针对当前不平衡数据分类算法中存在的分类精度低和容易陷入局部最优状态的问题,提出一种基于鲸鱼优化和深度学习的不平衡大数据分类算法.该算法由特征选择、预处理和分类3个阶段组成:(1)为了提高分类精度,使用鲸鱼优化算法(whale optimization algorithm, WOA)在不平衡数据中寻找最优特征子集,消除不相关和多余的特征;(2)采用局部敏感哈希的合成少数类过采样技术(locality sensitive hashing synthetic minority oversampling technique, LSH-SMOT)对数据集进行预处理,解决类不平衡问题;(3)使用基于WOA算法优化的双向递归神经网络(bidirectional recurrent neural networks, BRNN)对预处理后的数据集进行分类.实验结果表明:本文算法能够有效解决不平衡数据集的分类问题,相比于其他算法,本文算法在分类精度和局部最优避免率方面具有明显优势.  相似文献   

7.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

8.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

9.
本文提出了一种针对类分布不平衡数据流的分类算法。首先,针对数据流的类分布不平衡,采用改进的重采样方法,建立平衡的训练子集;然后,采用支持向量机在平衡的训练子集上建立基分类器;最后,采用WE集成模型组合基分类器,构建不平衡数据流的集成分类器。该算法通过设定相邻数据块的F-value的差值大于等于某一阈值作为更新分类器的标准,同时在更新分类器时引入错分正类实例重新训练基分类器。实验结果表明该算法不仅对正类有较好的分类性能,对整体也有较好的分类性能。  相似文献   

10.
针对现有不平衡分类问题中过采样方法不能充分利用数据概率密度分布的问题,提出了一种基于隐变量后验生成对抗网络的过采样(LGOS)算法.该方法利用变分自编码求取隐变量的近似后验分布,生成器能有效估计数据真实概率分布,在隐空间中采样克服了生成对抗网络采样过程的随机性,并引入边缘分布自适应损失和条件分布自适应损失提升生成数据质量.此外,将生成样本当作源领域样本放入迁移学习框架中,提出了改进的基于实例的迁移学习(TrWSBoost)分类算法,引入了权重缩放因子,有效解决了源领域样本权重收敛过快、学习不充分的问题.实验结果表明,提出的方法在分类问题各指标上的表现明显优于现有方法.  相似文献   

11.
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.  相似文献   

12.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

13.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

14.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

15.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

16.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境.  相似文献   

17.
针对云计算下的多源异构大数据,需要耗费大量时间对其进行传输,当前调度算法大多通过启发式算法实现大数据调度,加速比和吞吐量较低,负载均衡性不佳。为此,提出一种新的云计算下多源异构大数据跨源调度算法,为了降低计算开销,在调度前首先进行预取操作。在此基础上,对全部变量进行更新处理,将所有待调度多源异构子流的质量看作子流权重进行排列,从传输窗口中还存在剩余待调度多源异构子流中选择质量最佳的子流传输数据,直至全部待调度多源异构子流均被处理过。实验结果表明,所提算法加速比和吞吐量高,且负载均衡性好。  相似文献   

18.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

19.
传感器网络已成为一种重要、新型的信息获取和处理技术,数据管理作为其中的一种支撑技术占有重要地位。文章在简要介绍并分析现有的数据管理算法的基础上,提出了一种新型的基于任播的随机抽样数据管理算法;该算法在节能、灵活性、延迟及负载平衡等方面都有一定程度的提高;最后,展望了Anycast协议在传感器网络中的应用前景。  相似文献   

20.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号