首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 927 毫秒
1.
针对数据流环境中混合多种类型概念漂移问题,提出了基于图模型的数据流分类算法.该算法通过对数据块上的实例集进行概念表示,检测概念的变化度来衡量概念漂移,并引入了一个动态自适应阈值,为每个待分类实例合理选择基分类器模型,充分利用基分类器模型潜在的多样性并降低漂移恢复期间的分类误差.实验表明,本文提出的算法性能在多数数据集上优于其他算法,在复杂概念漂移环境下具有较好的适应性.  相似文献   

2.
概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-MS-CDC将k-means聚类和局部分类精度算法结合,从分类器池中挑选出最优源领域分类器;第二,将最优源领域分类器与目标领域分类器加权集成,进而对样本分类;第三,根据分类样本的真实标签分别计算各分类器的损失,并对目标领域和源领域的分类器权重进行更新;第四,再利用该分类样本对目标领域分类器、最优源领域分类器进行更新;最后,完成分类器池的更新。在公开数据集上的实验结果表明,LA-MS-CDC能够有效地将源领域知识迁移到目标领域,与现有方法相比,其分类效果具有显著性提升。算法代码可在https://gitee.com/ymw12345/LAMSCDC上获取。  相似文献   

3.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望.  相似文献   

4.
概念漂移会导致数据流分类模型的分类能力随时间发展而下降,这就要求分类模型有自适应的能力.现有的大多数自适应概念漂移的数据流分类模型往往假设数据输入分类模型得到预测标签之后就可以得到其真实标签,但这种假设在某些情况下是不合理的,因为数据标记往往成本高、耗时长.因此,针对数据流少量标签的问题,在考虑主动学习可能出现采样偏差的情况下,结合不确定性主动学习策略以及边界点和离群点检测方法(Boundary and Outlier Detection,BOD),提出一种新的主动学习方法 ALBOD(Active Learning Based on Boundary and Outlier Detection).比较实验的结果表明,在概念漂移发生的情况下,与100%标记算法OzaBagAdwin(OBA)和HoeffdingAdaptiveTree(HAT)相比,ALBOD主动学习方法只需要平均20%左右的标签就可以使分类器保持同等分类精度,说明新方法 ALBOD有良好的主动学习能力.  相似文献   

5.
增量学习是处理数据流的有效方式。文中针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的不足,提出了一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。该增量分类模型主要基于选择性集成学习思想,设计相应Map函数对不同时刻的增量样本块进行学习,以及设计Re-duce函数对不同时刻的分类器进行选择性集成以实现云计算平台上的增量学习。仿真实验表明该方法具有更好的性能,且能较好地解决数据流中的概念漂移问题。  相似文献   

6.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

7.
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.  相似文献   

8.
为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。  相似文献   

9.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

10.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。  相似文献   

11.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

12.
分类规则挖掘的免疫算法   总被引:4,自引:0,他引:4  
为了高效地从数据库中挖掘分类规则,提出了一种基于免疫算法的分类算法.该算法的核心思想为:对规则的前件进行固定长度编码,适应度函数的计算由分类规则的较小分类错误率、简洁性、一致性和训练实例的覆盖性构成,通过把适应度最小的个体作为先验知识来修改个体的某些分量的方法进行疫苗接种,并通过检测个体是否出现退化和模拟退火来实现免疫选择,同时还采用了基于信息增益的规则剪枝策略.在美国加州大学标准数据集中的5个数据集上将该算法与RISE和OCEC算法进行了实验比较,结果表明该算法不仅具有更快的收敛速度,而且获得了更高的预测准确率及更小的规则集。  相似文献   

13.
讨论了对分类规则的挖掘采用基于关联的分类方法.关联分类规则挖掘方法主要包括两大处理步骤:第一步利用分类关联规则挖掘算法挖掘出有关的分类关联规则;第二步就是基于所挖掘出的分类关联规则构造一个分类器.详细介绍了该方法的实现算法和部分数据结构.  相似文献   

14.
汪宏海 《科学技术与工程》2012,12(35):9537-9539,9551
针对数据关联规则挖掘的不足,提出了一种基于免疫记忆克隆算法的关联规则挖掘方法。算法利用了免疫记忆特性,把挖掘的关联规则存入记忆库,加快了挖掘速度。在克隆扩增过程中,设计了一种基于矢量距的抗体浓度计算方法,保证克隆扩增过程中解的多样性。仿真实验结果表明,现算法具有较快的运行速度,提高了所得关联规则的准确性。  相似文献   

15.
概念格及其应用进展   总被引:60,自引:0,他引:60  
概念格是近年来获得飞速发展的数据分析的有力工具。从数据集中生成概念格的过程实质上是一种概念聚类过程。然而 ,概念格可以用于许多机器学习的任务 ,例如分类 ,关联规则的挖掘等。论文介绍了概念格的基本概念 ,讨论了现有的几种建格算法和在格上提取规则的方法及相关系统和应用。另外 ,还介绍了格的剪枝及概念格和另一个新型数据分析工具粗糙集之间的关系。  相似文献   

16.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

17.
分析了数据挖掘所获规则的不同应用类型及其实施过程中建立规则管理系统的必要性,提出了一个分类规则管理系统的构建方法,根据对分类规则挖掘过程及结果的抽象,引入元数据知识设计了分类规则的存储结构、查询操作以及建立在此基础上的应用,给出了应用实例·其特点是不仅存储了挖掘结果,同时存储了挖掘过程中涉及的相关数据,更便于对新数据分类和预测·  相似文献   

18.
为改进数据分类的效果,基于粗糙集理论实现数据分类和规则推理的基本原理,利用粗糙集理论中核及决策类覆盖的思想,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系,简化带有不相容规则的决策系统的数据挖掘算法。通过PL/SQL演示了挖掘分类规则的过程,结果表明基于粗糙集分类算法的有效性。  相似文献   

19.
Intrusion detection is regarded as classification in data mining field. However instead of directly mining the classification rules, class association rules, which are then used to construct a classifier, are mined from audit logs. Some attributes in audit logs are important for detecting intrusion but their values are distributed skewedly. A relative support concept is proposed to deal with such situation. To mine class association rules effectively, an algorithms based on FP-tree is exploited. Experiment result proves that this method has better performance.  相似文献   

20.
一种基于闭项集的无冗余关联规则挖掘方法   总被引:1,自引:0,他引:1  
针对关联规则挖掘中存在的规则数量过多,难于理解和应用的问题,提出了一种基于闭项集的无冗余关联规则挖掘算法.首先,给出了无冗余关联规则的定义,并基于规则信任度的概念说明了该定义的合理性;其次,在生成子、闭项集和无冗余关联规则的基础上,给出了无冗余最小-最大精确规则基和无冗余最小-最大近似规则基的定义,并讨论了它们的剪枝策略.最后,讨论了生成子的性质及连接策略,并在包含索引的基础上,给出了一种宽度优先的无冗余关联规则挖掘算法.实验结果表明,本文提出的算法不仅可以发现规模较小的无冗余关联规则,提高了挖掘结果的可理解性,而且具有较高的挖掘效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号