首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 932 毫秒
1.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

2.
基于数据流异常挖掘的入侵检测系统设计   总被引:1,自引:1,他引:0  
通过对入侵检测和数据流异常挖掘技术的研究,把数据流异常挖掘应用到入侵检测,成为目前入侵检测新的有效方法和研究热点.对基于数据流异常挖掘的入侵检测系统模型进行了设计,并对数据流异常挖掘算法进行了设计和实现,通过实验分析,取得了较好的效果.  相似文献   

3.
数据流挖掘技术是数据挖掘领域的新研究方向之一。本文介绍了数据流基本特点以及数据流模型的基础上,对流行的数据流处理技术和现有数据流挖掘算法进行了总结,并进一步提出了数据流挖掘技术的研究方向和前景。  相似文献   

4.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望.  相似文献   

5.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

6.
由于数据流的快速流动性以及计算机内存的限制,因此要设计好的数据流挖掘算法是很困难的事。近几年来,对数据流进行数据挖掘的算法相继被提出。本文主要阐述分类算法中基于决策树的各种数据流挖掘算法,包括传统的增量式的决策树分类、基于Hoeffding tree的VFDT、可调整的VFDT(即CVFDT)以及使用整合技术的决策树分类算法,通过分析比较,总结了各种算法的主要特征,为国内研究者提供借鉴。  相似文献   

7.
以Apriori算法为例介绍并分析了挖掘最大频繁项集的过程。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了一种基于数据流频繁项集挖掘的新的EC算法。  相似文献   

8.
当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,去除冗余特征,保留有效的特征信息。应用支持向量机算法构建网络数据流快速分类模型,结合谱聚类算法对多数类样本进行聚类,组成新的数据集并将其输入到分类模型中得出相关的分类结果。实验结果表明,所提方法的平均F1值为0.95,F1值越大分类结果越准确,说明该方法能够满足高速网络数据流快速准确分类,具有优越的数据分类性能,应用价值更高。  相似文献   

9.
讨论了基于最优属性分类的熵构造判定树数据流挖掘算法,阐明算法中如何处理分枝属性、选取最优属性以及数据清理及剪枝等关键环节,可及时快速的对数据流进行及时有效的处理,此方法可满足数据流聚类的应用要求。  相似文献   

10.
Web使用挖掘是当前的一个热点研究方向,数据预处理是Web使用挖掘过程中的一个重要阶段。讨论了数据预处理技术中网络拓扑结构用户识别算法和会话识别启发算法的主要应用,并就其将来发展方向作了简单预测。  相似文献   

11.
决策树分类是数据挖掘中的一种重要方法。探讨了决策树算法的基本思想和常用算法,并将决策树挖掘技术应用于大学生心理健康数据,分析挖掘影响大学生心理健康的因素。文章选择C5.0算法,通过Clementine12.0进行决策树挖掘模型的构建,建立数据流,通过不断测试分析,发现影响大学生心理健康主要症状是强迫症。以强迫症为分类目标查看模型,可以了解到焦虑症和人际关系也起到很大的影响作用。将目标属性分别设置为焦虑_程度和人际关系_程度,输出变量设为剩余的9个因子变量,执行数据流挖掘出导致强迫症的主要原因,为指导心理健康的工作人员提供参考。  相似文献   

12.
随着数据流系统、传感网络和移动设备的广泛传播,数据流中的数据分析与挖掘技术应运而生。对数据流挖掘算法进行分析和总结,指出数据流分析与挖掘技术存在的缺陷及进一步的研究方向。  相似文献   

13.
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据中的噪音会直接影响概念漂移检测及分类质量,因此具有良好抗噪性能的数据流分类方法具有重要的研究和应用价值.随机决策树的集成模型是一种有效的数据流分类模型,为此本文基于随机决策树,引入Hoeffding Bounds不等式来检测和区分概念漂移和噪音,根据检测结果动态调整滑动窗口的大小和漂移检测周期,并提出一种增量式的集成分类方法ICDC,实验结果表明,本文算法在含噪音数据流上处理概念漂移是有效的.  相似文献   

14.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

15.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

16.
随着数据采集和生成技术的不断成熟,能够生成数据流的应用越来越多,近些年,网络应用进一步普及,单一数据流的应用向着多节点的分布式数据流方向转移,如传感器网络、网络监控、WEB日志以及多站点的信用卡交易数据。这些数据不仅具有实时、连续、规模大的特点,还具有分布式的特征,如何管理和分析大规模的分布式的动态数据集,是研究人员面临的重要课题。针对这种现状,本文给出了同构分布式数据流和异构分布式数据流的形式化描述,分析了集中式流处理架构与分布式流处理架构的优势与不足,讨论了分布式数据流分类算法的最新进展,归纳了分布式数据流挖掘面临的问题和挑战,以及未来可能的研究方向。  相似文献   

17.
许颖梅 《河南科学》2012,(3):348-351
入侵检测技术是网络安全中的核心技术,把数据流中频繁项集的挖掘应用于入侵检测系统中正常和异常数据分析已是当前网络安全中的一个重要发展方向.流入网络流中的数据高速并且无限到达,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型已受到局限.针对频繁模式多维的特点,提出了一种新型数据结构SW.Tree,并给出了一种高效的挖掘网络访问数据流的挖掘算法,把这种算法应用于网络入侵检测模型中频繁模式的挖掘,取得了较好的成效.  相似文献   

18.
由于数据流中概念漂移现象的影响,使得传统的分类方法不再适用,因此研究快速、精确及稳定的数据流挖掘方法和系统具有较高的理论和应用价值;文章研究了基于频度的概念漂移中低频概念对分类时空性能的影响,提出了对其中的低频概念进行消减的算法,实验表明LFCR算法比RePro算法有更好的分类性能。  相似文献   

19.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

20.
数据流管理与挖掘研究   总被引:6,自引:0,他引:6  
20世纪末,为适应网络监控、商业交易管理和分析等应用的要求,数据流技术应运而生;该文回顾了近年来国内外在该领域的研究进展,总结了数据流的特点、模型及其算法,对数据流管理和挖掘的关键技术进行了分析,并进一步提出了数据流技术研究的方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号