首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据中的噪音会直接影响概念漂移检测及分类质量,因此具有良好抗噪性能的数据流分类方法具有重要的研究和应用价值.随机决策树的集成模型是一种有效的数据流分类模型,为此本文基于随机决策树,引入Hoeffding Bounds不等式来检测和区分概念漂移和噪音,根据检测结果动态调整滑动窗口的大小和漂移检测周期,并提出一种增量式的集成分类方法ICDC,实验结果表明,本文算法在含噪音数据流上处理概念漂移是有效的.  相似文献   

2.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

3.
带概念漂移不平衡流数据分类研究是机器学习和现实应用领域的一个难点和热点.针对带概念漂移不平衡流数据的动态性和不平衡性,本文中提出了随机平衡采样算法用于再平衡不平衡数据流.之后,在随机平衡采样算法的基础上提出了一种新的处理带概念漂移的不平衡流数据集成分类算法用于抵抗流数据的概念漂移和不平衡性.理论和实验表明本文中提出的集成分类算法对处理带概念漂移的不平衡流数据较强的多样性和泛化能力.  相似文献   

4.
针对数据流环境中混合多种类型概念漂移问题,提出了基于图模型的数据流分类算法.该算法通过对数据块上的实例集进行概念表示,检测概念的变化度来衡量概念漂移,并引入了一个动态自适应阈值,为每个待分类实例合理选择基分类器模型,充分利用基分类器模型潜在的多样性并降低漂移恢复期间的分类误差.实验表明,本文提出的算法性能在多数数据集上优于其他算法,在复杂概念漂移环境下具有较好的适应性.  相似文献   

5.
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结.  相似文献   

6.
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.  相似文献   

7.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

8.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率.  相似文献   

9.
实际数据流中许多数据是无标签的,且其中隐含着不同类型的概念漂移。为此,本文提出了一种面向不完全标记数据流的集成分类算法,该算法利用K均值聚类算法标记无标签实例,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,同时动态地更新分类模型以适应数据流环境的变化。实验结果表明,本文提出的算法能够在类传播过程中具有较高标记正确率,又能从噪音中识别出不同类型的概念漂移。  相似文献   

10.
概念漂移是流数据的主要特征之一,如何检测概念漂移的发生以及调整预测模型去适应概念漂移现象备受研究者的关注.目前有关概念漂移的大多数算法仅仅针对单一类型的概念漂移检测,并且需限制输入数据服从某一分布,所以在检测多种类型概念漂移时效果不理想.提出一种在线集成自适应算法(KSHPR),在自适应随机森林(Adaptive Random Forests,ARF)算法和流随机补丁(Streaming Random Patch,SRP)算法的基础上进行优化改进,采用非参数检验与滑动窗口相结合的策略进行概念漂移检测,降低窗口平均值对算法性能的影响,并以此为基础建立四个基学习者的集成学习模型,根据基学习者预测准确率,动态分配权值,有效解决流式数据中学习模型精度低的问题.实验证明,提出的算法在真实数据集和合成数据集中均表现优良,与其他算法相比,该算法的稳定性、分类准确性与多类型概念漂移适应能力均有所提升.  相似文献   

11.
由于数据流中概念漂移现象的影响,使得传统的分类方法不再适用,因此研究快速、精确及稳定的数据流挖掘方法和系统具有较高的理论和应用价值;文章研究了基于频度的概念漂移中低频概念对分类时空性能的影响,提出了对其中的低频概念进行消减的算法,实验表明LFCR算法比RePro算法有更好的分类性能。  相似文献   

12.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

13.
当前动态数据流下的实时分类问题存在3个难点:针对海量数据的实时处理;概念漂移的跟踪和模型的更新;模型的稳定和鲁棒性.针对上述问题,将极端支持向量机(extreme support vector machine,ESVM)与MapReduce框架结合,提出了带遗忘因子的鲁棒ESVM算法.该方法通过构造残差权重矩阵,对残差进行修正,同时加入遗忘因子,提高新样本的作用,从而实现对海量数据处理问题的求解.实验结果显示,所提出方法能够快速有效地对动态数据流进行分类,且结果不易受到噪声干扰,稳定性强.  相似文献   

14.
增量学习是处理数据流的有效方式。文中针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的不足,提出了一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。该增量分类模型主要基于选择性集成学习思想,设计相应Map函数对不同时刻的增量样本块进行学习,以及设计Re-duce函数对不同时刻的分类器进行选择性集成以实现云计算平台上的增量学习。仿真实验表明该方法具有更好的性能,且能较好地解决数据流中的概念漂移问题。  相似文献   

15.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境.  相似文献   

16.
商业数据流具有动态性、漂移性等特性,概念漂移特征选择是数据流挖掘的重要工作之一.本文从数据流的特点和概念漂移特性出发,提出了数据流的概念形式化分析流程和基于粒计算构建数据流的概念形式化描述模型;商业数据流的概念漂移实际上取决于其概念外延的变化,文中使用包括外延偶合度和内涵偶合度在内的概念偶合度来描述概念间的相似性;经过粒化的数据流由概念格来表示,进而通过概念格对的松弛偶合度来分析数据流特征;结合概念偶合分析和数据流变化特征,阐述了一种基于数据流概念格对的松弛匹配偶合度算法,并据此分析概念格对来选择数据流的漂移特征.通过实例验证、评价了特征选择,证明其有效性.  相似文献   

17.
回顾了数据流分类领域的研究进展情况,阐明概念漂移等数据流分类需要解决的关键问题,讨论了适合于数据流经典分类算法的选择,在详细分析现有数据流分类算法优缺点的基础上,提出一种在线分类算法的设计思路.  相似文献   

18.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

19.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。  相似文献   

20.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号