首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,针对流数据的特征提出特定的分类算法,是流数据分类的一个主要研究分支.为了全面介绍基于决策树的流数据分类算法,首先,简要概述数据挖掘及主要任务、决策树及其主要算法、流数据及其主要特性;然后,按照算法是否考虑概念漂移问题,将现有工作划分为包含概念漂移的流数据分类算法和不含概念漂移的流数据分类算法两大类,分别介绍每一类算法的主要算法流程、优缺点和典型应用;最后,指出基于决策树的流数据分类的进一步研究方向.  相似文献   

2.
为具体挖掘任务选择合适的挖掘算法需要用户对挖掘任务、各种挖掘算法和数据特征都非常熟悉,一般用户是很难达到这个要求的.针对以往研究的系统存在实现困难、不能适应动态添加算法等不足,文中形式化表示数据挖掘算法的适用知识,并基于此设计算法选择交互问题和选择逻辑,实现了一个易于实现的数据挖掘算法选择交互系统.实例验证了系统的有效性.  相似文献   

3.
聚类分析是数据挖掘的一个重要运用方法,它是一个把数据对象划分成子集的过程.k-means算法是一个基于划分且应用非常广泛的聚类算法,具有原理简单、便于理解和实现、能处理大数据集等优点.但是,该算法也存在着一些不可避免的缺点,本论述针对在多维空间k-means算法中聚类数需要事先给定以及该算法对初始中心点选取的敏感性这两方面的缺点给出了改进算法,并选取数据集对改进算法进行试验.结果表明笔者提出的改进算法比传统的k-means算法和基于最大最小距离算法的k-means聚类算法具有更高的有效性和稳定性.  相似文献   

4.
 决策树算法是数据挖掘领域的重要算法之一.文章首先对决策树算法的数据进行逻辑描述,然后使用保险公司客户数据来构建决策树,利用Prolog语言实现了基于逻辑描述的ID3算法,尝试了用逻辑推理方法解决数据挖掘问题,并对结果进行了分析.  相似文献   

5.
社会网络分析方法将社会行动者映射为图的节点,社会行动者之间的关系映射为图的边,然后利用图论的相关知识来解决社会网络问题.将数据挖掘方法应用于社会网络分析是数据挖掘研究领域的一个新方向.本文主要在算法改进和系统实现层面展开数据挖掘在社会网络分析中的应用,提出了基于权重的Jaccard相似度度量的方法及处理多链接属性的实体识别算法.最后基于电信分析系统平台,使用上述算法在电信数据集上进行测试,实验结果表明上述算法的有效性和实用性.  相似文献   

6.
数据挖掘是一个应用统计学和人工智能等算法进行知识发现的过程.数据挖掘需要从庞大的数据集或数据库中提炼有用的信息, 因而就产生了一个问题, 如何为数据挖掘准备一个有效的数据集合, 以提高效率, 这是本文讨论的关键.  相似文献   

7.
数据挖掘中决策树分类方法研究   总被引:2,自引:0,他引:2  
分类知识的获取是数据挖掘所要实现的重要任务之一,其核心问题是解决分类模型的构造和分类算法实现问题.本文以决策树分类方法中有代表性的方法C4.5为例介绍数据挖掘中的一种分类模式:基于决策树方法的分类器的构建方法和算法.  相似文献   

8.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

9.
作者结合政府机关的申请审批系统的开发实践,指出了信息系统中数据挖掘的意义,设计出了用标准模式来筛选信息、以决策树算法和聚类划分法实现申请信息的审核与审批.  相似文献   

10.
聚类是数据挖掘领域中的一个重要研究课题.聚类在电子商务、图像处理、模式识别、文本分类等领域有广泛的应用.本文首先建立了数据挖掘中聚类方法的比较标准,然后从基于优化、关系、变换这样一个新的角度对聚类方法进行了分类和比较,最后对数据挖掘中常用聚类算法进行了分析,以便于人们更易于选择研究方向和选择适合于具体问题的聚类算法.  相似文献   

11.
基于有权重支持度框架的关联规则挖掘算法和超图分割算法, 给出一种新的基于有权重超图模型的离群点检测算法WHOT(Weighted Hypergraph based Outlier Test). WHOT算法根据有权重支持度的定义, 重新设计了基于有权重支持度框架的关联规则挖掘算法, 并挖掘出数据集中的重要关联规则, 形成超图. 在超图上应用超图分割算法, 得到聚类集合, 再结合项权重和事务权重的定义, 判断一条记录是否为离群数据.  相似文献   

12.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

13.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

14.
产生频繁项目集是关联规则挖掘中的一个关键步骤.在对Apriori算法分析的基础上,提出了一种基于集合和位运算的频繁项目集挖掘算法.该算法用位视图表示使用了每个项目的事务,通过对位视图进行位运算来计算每个项目集的支持数,避免了Apriori算法中多次扫描数据库的问题.  相似文献   

15.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

16.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

17.
Link patterns are consensus practices characterizing how different types of objects are typically interlinked in linked data.Mining link patterns in large-scale linked data has been inefficient due to the computational complexity of mining algorithms and memory limitations.To improve scalability,partitioning strategies for pattern mining have been proposed.But the efficiency and completeness of mining results are still under discussion.In this paper we propose a novel partitioning strategy for mining link patterns in large-scale linked data,in which linked data is partitioned according to edge-labeling rules:Edges are grouped into a primary multi-partition according to edge labels.A feedback mechanism is proposed to produce a secondary bi-partition according to a quick mining process.Local discovered link patterns in partitions are then merged into global patterns.Experiments show that our partition strategy is feasible and efficient.  相似文献   

18.
一种基于可信度最优的数量关联规则挖掘算法   总被引:2,自引:0,他引:2  
研究了数量关联规划挖掘过程中的连续属性离散化问题,描述了连续属性离散化方程,包括连续属性区间划分算法和数据库样本大小的确定,提出了基于可信度最优的数量关联规则挖掘算法。该算法首先利用等深度划分算法对连续属性进行离散化,然后利用凸包处理技术提取强规则中可信度最高的数量关联区间,它对于数量关联规则的优化有着重要的应用价值。应用该算法对股票行情进行了数量关联分析,提取股票涨跌与股票价格之间可信度最高的关联规则。实验表明该算法是非常有效的。  相似文献   

19.
一种快速发现最大频繁项集的挖掘算法   总被引:1,自引:0,他引:1  
文章分析了关联规则发现中关于频繁项集的生成与测试方法,提出一种快速挖掘最大频繁项集的算法MFIA_VTL。该算法针对数据库的垂直事务标识列表结构对项集搜索空间进行基于前缀的划分,来发现最大频繁项集。实验表明,该算法性能稳定,可扩展性好。  相似文献   

20.
运用模糊C-均值(FCM)聚类算法对数字图书馆的图书借阅数据进行数据挖掘,并使用误判率交叉估计法验证挖掘过程的有效性.通过分析聚类挖掘结果,寻找到读者借阅图书的潜在规律,并对各类图书的借阅质量进行判断,以提高图书馆的图书利用率,进一步优化馆藏.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号