共查询到20条相似文献,搜索用时 0 毫秒
1.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。 相似文献
2.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势. 相似文献
3.
概念漂移是流数据的主要特征之一,如何检测概念漂移的发生以及调整预测模型去适应概念漂移现象备受研究者的关注.目前有关概念漂移的大多数算法仅仅针对单一类型的概念漂移检测,并且需限制输入数据服从某一分布,所以在检测多种类型概念漂移时效果不理想.提出一种在线集成自适应算法(KSHPR),在自适应随机森林(Adaptive Random Forests,ARF)算法和流随机补丁(Streaming Random Patch,SRP)算法的基础上进行优化改进,采用非参数检验与滑动窗口相结合的策略进行概念漂移检测,降低窗口平均值对算法性能的影响,并以此为基础建立四个基学习者的集成学习模型,根据基学习者预测准确率,动态分配权值,有效解决流式数据中学习模型精度低的问题.实验证明,提出的算法在真实数据集和合成数据集中均表现优良,与其他算法相比,该算法的稳定性、分类准确性与多类型概念漂移适应能力均有所提升. 相似文献
4.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。 相似文献
5.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望. 相似文献
6.
概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-MS-CDC将k-means聚类和局部分类精度算法结合,从分类器池中挑选出最优源领域分类器;第二,将最优源领域分类器与目标领域分类器加权集成,进而对样本分类;第三,根据分类样本的真实标签分别计算各分类器的损失,并对目标领域和源领域的分类器权重进行更新;第四,再利用该分类样本对目标领域分类器、最优源领域分类器进行更新;最后,完成分类器池的更新。在公开数据集上的实验结果表明,LA-MS-CDC能够有效地将源领域知识迁移到目标领域,与现有方法相比,其分类效果具有显著性提升。算法代码可在https://gitee.com/ymw12345/LAMSCDC上获取。 相似文献
7.
《山东科技大学学报(自然科学版)》2021,40(2)
针对软件缺陷预测数据中的数据不平衡、预测精度低以及特征维度高的问题,提出了一种RUS-RSMOTE-PCA-Vote的软件缺陷不平衡数据分类方法。首先通过随机欠采样来减少无缺陷样本的数量;在此基础上进行SMOTE过采样,在过采样中综合总体样本的分布状况引入影响因素posFac指导新样本的合成;对经过RUS-RSMOTE混合采样处理后的数据集进行PCA降维,最后应用Vote组合K最近邻、决策树、支持向量机构造集成分类器。在NASA数据集上的实验结果表明,与现有不平衡数据分类方法相比,所提方法在F-value值、G-mean值和AUC值上更优,有效地改善了软件缺陷预测数据集的分类性能。 相似文献
8.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率. 相似文献
9.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境. 相似文献
10.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果. 相似文献
11.
针对传统重采样方法大多使用固定采样策略,无法根据模型的优化需求改变采样策略的问题,提出一种基于自适应采样的不平衡分类方法(ASIC)。该方法根据分类模型在验证集上的表现动态调整训练集上不同类别样本的采样概率,使不同类别的采样概率由当前分类模型的需求动态决定;同时,该方法对少数类给予额外的关注,在其余条件相同的情况下为少数类赋予更大的采样概率,以弥补少数类本身样本数量不足对分类模型造成的不良影响,从而提高分类模型对少数类的识别能力。实验结果表明,使用ASIC方法训练的分类模型的平均类准确率和召回率的几何平均值均比对比方法更好,且数据分布越不平衡,ASIC方法的优势越明显。 相似文献
12.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境. 相似文献
13.
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据中的噪音会直接影响概念漂移检测及分类质量,因此具有良好抗噪性能的数据流分类方法具有重要的研究和应用价值.随机决策树的集成模型是一种有效的数据流分类模型,为此本文基于随机决策树,引入Hoeffding Bounds不等式来检测和区分概念漂移和噪音,根据检测结果动态调整滑动窗口的大小和漂移检测周期,并提出一种增量式的集成分类方法ICDC,实验结果表明,本文算法在含噪音数据流上处理概念漂移是有效的. 相似文献
14.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度. 相似文献
15.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。 相似文献
16.
基于支持向量机的不平衡数据分类的改进欠采样方法 总被引:3,自引:0,他引:3
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能. 相似文献
17.
胡小生 《佛山科学技术学院学报(自然科学版)》2013,(5):22-26
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率. 相似文献
18.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE.一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek ... 相似文献
19.
基于随机森林的不平衡特征选择算法 总被引:1,自引:0,他引:1
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。 相似文献
20.
在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法. 相似文献