首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据中的噪音会直接影响概念漂移检测及分类质量,因此具有良好抗噪性能的数据流分类方法具有重要的研究和应用价值.随机决策树的集成模型是一种有效的数据流分类模型,为此本文基于随机决策树,引入Hoeffding Bounds不等式来检测和区分概念漂移和噪音,根据检测结果动态调整滑动窗口的大小和漂移检测周期,并提出一种增量式的集成分类方法ICDC,实验结果表明,本文算法在含噪音数据流上处理概念漂移是有效的.  相似文献   

2.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望.  相似文献   

3.
带概念漂移不平衡流数据分类研究是机器学习和现实应用领域的一个难点和热点.针对带概念漂移不平衡流数据的动态性和不平衡性,本文中提出了随机平衡采样算法用于再平衡不平衡数据流.之后,在随机平衡采样算法的基础上提出了一种新的处理带概念漂移的不平衡流数据集成分类算法用于抵抗流数据的概念漂移和不平衡性.理论和实验表明本文中提出的集成分类算法对处理带概念漂移的不平衡流数据较强的多样性和泛化能力.  相似文献   

4.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

5.
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.  相似文献   

6.
针对数据流环境中混合多种类型概念漂移问题,提出了基于图模型的数据流分类算法.该算法通过对数据块上的实例集进行概念表示,检测概念的变化度来衡量概念漂移,并引入了一个动态自适应阈值,为每个待分类实例合理选择基分类器模型,充分利用基分类器模型潜在的多样性并降低漂移恢复期间的分类误差.实验表明,本文提出的算法性能在多数数据集上优于其他算法,在复杂概念漂移环境下具有较好的适应性.  相似文献   

7.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

8.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

9.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率.  相似文献   

10.
由于数据流中概念漂移现象的影响,使得传统的分类方法不再适用,因此研究快速、精确及稳定的数据流挖掘方法和系统具有较高的理论和应用价值;文章研究了基于频度的概念漂移中低频概念对分类时空性能的影响,提出了对其中的低频概念进行消减的算法,实验表明LFCR算法比RePro算法有更好的分类性能。  相似文献   

11.
实际数据流中许多数据是无标签的,且其中隐含着不同类型的概念漂移。为此,本文提出了一种面向不完全标记数据流的集成分类算法,该算法利用K均值聚类算法标记无标签实例,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,同时动态地更新分类模型以适应数据流环境的变化。实验结果表明,本文提出的算法能够在类传播过程中具有较高标记正确率,又能从噪音中识别出不同类型的概念漂移。  相似文献   

12.
增量学习是处理数据流的有效方式。文中针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的不足,提出了一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。该增量分类模型主要基于选择性集成学习思想,设计相应Map函数对不同时刻的增量样本块进行学习,以及设计Re-duce函数对不同时刻的分类器进行选择性集成以实现云计算平台上的增量学习。仿真实验表明该方法具有更好的性能,且能较好地解决数据流中的概念漂移问题。  相似文献   

13.
流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,针对流数据的特征提出特定的分类算法,是流数据分类的一个主要研究分支.为了全面介绍基于决策树的流数据分类算法,首先,简要概述数据挖掘及主要任务、决策树及其主要算法、流数据及其主要特性;然后,按照算法是否考虑概念漂移问题,将现有工作划分为包含概念漂移的流数据分类算法和不含概念漂移的流数据分类算法两大类,分别介绍每一类算法的主要算法流程、优缺点和典型应用;最后,指出基于决策树的流数据分类的进一步研究方向.  相似文献   

14.
由于数据流的快速流动性以及计算机内存的限制,因此要设计好的数据流挖掘算法是很困难的事。近几年来,对数据流进行数据挖掘的算法相继被提出。本文主要阐述分类算法中基于决策树的各种数据流挖掘算法,包括传统的增量式的决策树分类、基于Hoeffding tree的VFDT、可调整的VFDT(即CVFDT)以及使用整合技术的决策树分类算法,通过分析比较,总结了各种算法的主要特征,为国内研究者提供借鉴。  相似文献   

15.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

16.
在大数据时代,概念漂移检测技术用于解决数据流的动态性问题,还存在不足之处.为此,该文基于概念漂移检测算法对大数据下数据流聚类挖掘算法进行优化,提出了改进的FKNN模型算法,解决了算法中的需要专家及运算效率比较低下以及采样密度必须足够大或者说维度比较低的难题.  相似文献   

17.
当前动态数据流下的实时分类问题存在3个难点:针对海量数据的实时处理;概念漂移的跟踪和模型的更新;模型的稳定和鲁棒性.针对上述问题,将极端支持向量机(extreme support vector machine,ESVM)与MapReduce框架结合,提出了带遗忘因子的鲁棒ESVM算法.该方法通过构造残差权重矩阵,对残差进行修正,同时加入遗忘因子,提高新样本的作用,从而实现对海量数据处理问题的求解.实验结果显示,所提出方法能够快速有效地对动态数据流进行分类,且结果不易受到噪声干扰,稳定性强.  相似文献   

18.
回顾了数据流分类领域的研究进展情况,阐明概念漂移等数据流分类需要解决的关键问题,讨论了适合于数据流经典分类算法的选择,在详细分析现有数据流分类算法优缺点的基础上,提出一种在线分类算法的设计思路.  相似文献   

19.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

20.
商业数据流具有动态性、漂移性等特性,概念漂移特征选择是数据流挖掘的重要工作之一.本文从数据流的特点和概念漂移特性出发,提出了数据流的概念形式化分析流程和基于粒计算构建数据流的概念形式化描述模型;商业数据流的概念漂移实际上取决于其概念外延的变化,文中使用包括外延偶合度和内涵偶合度在内的概念偶合度来描述概念间的相似性;经过粒化的数据流由概念格来表示,进而通过概念格对的松弛偶合度来分析数据流特征;结合概念偶合分析和数据流变化特征,阐述了一种基于数据流概念格对的松弛匹配偶合度算法,并据此分析概念格对来选择数据流的漂移特征.通过实例验证、评价了特征选择,证明其有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号