首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
数据挖掘中基于密度的聚类结构及算法设计   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘的主要技术之一。其中基于密度的聚类可以得到任意形状的聚类结果,从而可以观察到一个并发的、完整的聚类结构。对聚类、数据对象、簇的密度、基于密度的方法和OP TICS中的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于ζ的基于密度的簇、密度度量函数等概念,并设计了获得聚类结构的相应算法且对其进行了复杂性分析。  相似文献   

2.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

3.
聚类算法是数据挖掘中的核心技术 ,虽然聚类算法已被广泛深入的研究 ,但其应用在数据挖掘领域时间不长 ,其间产生了许多不同的适用于数据挖掘的聚类算法 ,但这些算法仅适用于特定的问题及用户 .为了更好的使用这些算法 ,综合提出了评价聚类算法好坏的 5个标准 ,基于这 5个标准 ,对数据挖掘中近几年提出的常用聚类方法作了比较分析 ,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法  相似文献   

4.
聚类算法是数据挖掘中的核心技术,虽然聚类算法已被广泛深入的研究,但其应用在数据挖掘领域时间不长,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户.为了更好的使用这些算法,综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

5.
基于SNN相似性和密度的聚类算法是当前主要的无监督聚类方法之一,该类算法在发现不同大小形状簇的聚类过程中都取得了较好的结果。但是该类算法也存在局限性,如Jarvis-Pat-rick算法通过单连结的方式发现簇,可能分割真正的簇或者合并应该保持分离的簇,而SNN密度类算法的Eps,MinPts参数的确定对用户来说是比较困难的。针对该类问题,本文对聚类过程中的局部集聚特征进行了分析和定义,提出了利用数据的局部集聚特征来控制聚类过程的的聚类算法。通过验证,该算法对发现不同密度以及任意形状的数据集合的聚类分析问题是有效的,突出了数据分析的局部集聚特征,改进了数据聚类的质量。  相似文献   

6.
基于聚类的空间数据挖掘系统的设计与实现   总被引:2,自引:0,他引:2  
空间数据挖掘系统是指从空间数据库中提取隐含数据特征的决策支持系统.本文将采关分析、空间数据挖掘和地理信息系统三者紧密联系起来,并结合土地利用数据库,以聚类的方法对空间数据挖掘系统的设计和实现进行了详细地阐述.  相似文献   

7.
臧少杰 《科技信息》2007,(30):75-75,74
聚类算法是数据挖掘的核心技术,本文提出了评价聚类算法好坏的标准,基于这个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法。  相似文献   

8.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

9.
针对DBSCAN算法I/O开销和内存消耗大的缺点,提出了基于层次合并的密度算法.该算法减少了DBSCAN算法中需要查询的点的数量,从而克服了DBSCAN算法I/O开销和内存消耗大的缺点.算法分析表明该算法对DBSCAN的改进是有效的.  相似文献   

10.
研究了联机数据挖掘系统中的并行和增量聚类算法,并给出了算法伪码。实验表明,联机增量聚类算法相对于传统的Apriori算法具有较大优势,同时证明了增量聚类算法及其联机数据挖掘系统的实用性。  相似文献   

11.
数据挖掘领域中的聚类方法   总被引:4,自引:0,他引:4  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

12.
基于数据挖掘平台的模糊聚类算法及应用研究   总被引:3,自引:0,他引:3  
研究基于目标函数的模糊聚类算法,并对聚类效果的有效性和参数选择进行了详细分析,在数据挖掘平台中实现该算法,通过设置聚类误差和实时误差两项动态指标来确定最佳的判别方法和参数设置.最后将该算法应用于模型生命表制作的前期分析工作中。  相似文献   

13.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

14.
数据挖掘中聚类分析技术的研究与应用   总被引:1,自引:0,他引:1  
对数据挖掘中聚类分析方法的概念、功能及其算法做了深入研究,并将其应用于学生成绩数据管理,对某高职院校学生成绩进行了数据挖掘  相似文献   

15.
数据挖掘是用来发现数据库中隐含的各个数据之间的关系和特性,聚类分析是数据挖掘所要完成的工作之一.选取了三个并行聚类分析算法并研究了与之对应的并行算法,然后讨论了并行算法的性能,并得到了一些实验结果.最后提出了一个新的并行算法,相比较其它并行聚类算法,本文所提出的算法是最有效的.  相似文献   

16.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

17.
一种基于层次聚类的流数据挖掘方法   总被引:1,自引:0,他引:1  
流数据的特点在于数据流快速、有序地到达,并且数据海量,许多应用领域中生成的数据都可以归结为此类型.数据挖掘技术可以从海量的数据中发现有意义的知识模型,传统的数据挖掘算法通常是针对静态数据集,对流数据却无法有效地处理.文章试图从层次聚类角度处理流数据,并探讨了一种基于最小代价函数的层次聚类算法.  相似文献   

18.
随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注,异常点挖掘在信息科学研究领域日益受到重视.本文首先给出异常点的定义,并在聚类分析的基础上对PAM算法、BIRCH算法、DBSCAN算法和CURE算法在算法效率、适合的数据类型、发现的聚类类型、对异常数据的敏感性、空间复杂性、时间复杂性、使用的方法等方面进行了比较研究,最后给出了如何使用这些聚类算法处理异常点的方法.  相似文献   

19.
文本聚类算法的比较   总被引:3,自引:0,他引:3  
聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号