首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
增量算法的要求是聚类特征一般是可加的、非迭代的。文中提出了一种基于密度的网格聚类算法GDCLUS,并在此基础上提出了增量式算法IGDCLUS,它可发现任意形状的聚类,具有高效、易实现的特点,适用于数据库周期性地增量环境下的数据批量更新。  相似文献   

2.
针对传统网格聚类算法聚类精度不高的缺点,把高密度单元格的网格平均密度作为密度阀值,将簇边界点从低密度网格单元中提取出来。算法即保留了网格算法运行速度快的特点,有提高了聚类结果的质量。  相似文献   

3.
基于网格密度和距离信息特征的聚类算法   总被引:1,自引:0,他引:1  
摘要: 提出的基于网格密度和距离信息特征的聚类方法(GDD)通过构建基于距离的跃迁函数将局域密度波动特征与距离分布信息联系在一起,根据计算出的跃迁函数值扩展和增长聚类簇,从而避免了多数基于网格和密度的聚类算法存在的单调性搜索聚类缺陷。结合具体的跃迁函数在不同测试集上的实验结果表明:GDD算法不仅能够发现任意形状的簇和对噪音数据不敏感,且具有线性于网格数目的时间复杂性,能够回避密度分布不均对聚类结果的影响,更适合于对大规模真实数据集的聚类。  相似文献   

4.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

5.
张伟 《科技资讯》2013,(24):18-18
本文提出了一种基于参考点和密度的网格聚类算法GRDCA.GRDCA算法保持了基于密度的聚类算法的上述优点和网格聚类的高效性,而且提出了基于参考点的网格单元重构方法避免了网格聚类质量低的缺陷,因此GRDCA算法适合对大规模数据的挖掘,理论分析和实验结果也证明了GRDCA算法具有处理任意形状的聚类、对噪音数据不敏感的特点.  相似文献   

6.
聚类算法是数据挖掘领域中一个非常重要的研究方向.至今为止人们已经提出了许多适用于大规模的、高维的数据库的聚类算法.基于密度的聚类算法是其中一个比较典型的研究方向,文中以DBSCAN为基础,提出一种基于密度的网格动态聚类算法.新算法将网格的原理运用到基于密度的聚类算法中,并采用了动态的参数法,能自动根据数据的分布情况进行必要的参数更改,有效减少DBSCAN对初始参数的敏感度,从而提高了聚类的效率和效果,降低了算法I/O的开销.算法不仅能挖掘出各种形状的聚类,并能准确的挖掘出数据集中突出的聚类.  相似文献   

7.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

8.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

9.
基于测度的网格聚类算法   总被引:1,自引:0,他引:1  
基于测度的网格聚类方法在数据空间上定义计数测度,并以计数测度构造目标函数.通过调整划分数据空间的分辨率,使目标函数值最大,从而实现分辨率的自动确定.在此分辨率下,某些数据细节被忽略,但是数据的主要属性和关系更为明显.距离较近的数据将被聚类到属性相同的同一簇中,使簇间的数据相似性最小,簇内的数据相似性最大.算法中没有对参数值进行人为设定,可以实现提高准确性的目的.  相似文献   

10.
张真  周志强 《科技信息》2010,(25):9-9,21
经典的固定网格划分算法是CLIQUE算法,在高维的大数据集上聚类效果较好,但是因网格单元采用硬化分的缺陷,导致了其效率和聚类质量不够高。而基于统计学的网格划分技术能充分考虑数据集分布特征,且能识别任意形状和大小的聚类。  相似文献   

11.
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用。提出的基于相对密度的聚类算法,在继承上述优点的基础上,有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

12.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

13.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

14.
高校学生成绩的评价分析是教学工作的重要环节,使用自行提出的一种基于邻域的改进K-medoids聚类算法算法对学生成绩进行数据挖掘。实验表明,使用基于邻域的K-medoids算法对学生成绩进行聚类分析,克服了传统的采用划分方法来评价学生成绩所带来的问题,比较科学、合理地反应出学生的学习状况,能够为教学工作提供有意义的决策指导。  相似文献   

15.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

16.
聚类算法通常用于数据的聚类,但只要对算法结果从另一角度进行分析,则可发现它还可以用于异常数据的检测. 首先介绍了数据挖掘中的聚类算法,进而结合具体实例给出应用基于密度的聚类算法DBSCAN进行异常检测的过程,最后指出最终异常数据集的确定还应结合领域专家意见.  相似文献   

17.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

18.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

19.
针对聚类算法用于图像分割时造成的过度分割问题,提出一种带有深度邻域信息的模糊C均值聚类算法(FCM_DN).在传统的带有邻域信息的模糊C均值聚类算法基础上,引入类似高斯滤波的权重来表示像素点的位置差异,同时还引入中心点像素值与邻域点像素值之间的差异.相比于只考虑带有像素点之间位置差异的模糊C均值聚类算法,所提出的算法在聚类时可以使用更大的邻域,从而解决过度分割的问题.结果表明:在人造数据集上,本算法对于椒盐噪声和高斯噪声都有较强的鲁棒性;在现实数据上,本算法相比于11个先进算法在四个指标上有两个指标的表现都位于前三;在SED数据集的归一化互信息(NMI)结果对比中,本算法比其他算法高出1.78%~26.90%.  相似文献   

20.
数据挖掘中基于密度的聚类结构及算法设计   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘的主要技术之一。其中基于密度的聚类可以得到任意形状的聚类结果,从而可以观察到一个并发的、完整的聚类结构。对聚类、数据对象、簇的密度、基于密度的方法和OP TICS中的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于ζ的基于密度的簇、密度度量函数等概念,并设计了获得聚类结构的相应算法且对其进行了复杂性分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号