首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
一种基于层次树的高效密度聚类算法   总被引:2,自引:1,他引:1  
基于密度的聚类算法具有挖掘任意形状聚类和处理"噪声"数据等优势,同时也存在时间消耗大、参数问题局限及输入顺序敏感等缺陷.为此,文章提出一种基于层次树的密度聚类算法DCHT(Density Clustering Based on Hierarchical Tree),以层次树描述子聚类信息,动态调整密度参数,基于密度探测树结构中相邻子聚类得到最终的聚类簇.理论分析和实验结果表明,该算法适用于大规模、高维数据,并具有动态调整参数和屏蔽输入顺序敏感性的优点.  相似文献   

2.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

3.
数据挖掘中基于密度的聚类结构及算法设计   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘的主要技术之一。其中基于密度的聚类可以得到任意形状的聚类结果,从而可以观察到一个并发的、完整的聚类结构。对聚类、数据对象、簇的密度、基于密度的方法和OP TICS中的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于ζ的基于密度的簇、密度度量函数等概念,并设计了获得聚类结构的相应算法且对其进行了复杂性分析。  相似文献   

4.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

5.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

6.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

7.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

8.
密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法.该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类.该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳.针...  相似文献   

9.
一种三维点云聚类算法的研究   总被引:1,自引:1,他引:0  
在重构曲面之前,需要对点云数据进行聚类处理,以保证后续3D重建工作准确、高效地进行。基于采用传统的聚类方法处理立体视觉形成的海量数据所存在的计算与存储瓶颈问题,提出一种新型的聚类算法,即基于包围盒的密度聚类算法。它首先利用包围盒算法对给定的海量点云进行过分聚类,然后对每个过分簇求中心,用中心点代替过分簇,最后在过分簇的级别上进行基于密度的聚类来完成对整体的聚类。结果显示该方法能够有效地实现海量点云的聚类,突破计算瓶颈。它实现了原始点云的大量删减,简化率高达96.75%,并最终在过分簇的级别上将原始点云分为5类。  相似文献   

10.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

11.
聚类算法是数据挖掘领域中一个非常重要的研究方向.至今为止人们已经提出了许多适用于大规模的、高维的数据库的聚类算法.基于密度的聚类算法是其中一个比较典型的研究方向,文中以DBSCAN为基础,提出一种基于密度的网格动态聚类算法.新算法将网格的原理运用到基于密度的聚类算法中,并采用了动态的参数法,能自动根据数据的分布情况进行必要的参数更改,有效减少DBSCAN对初始参数的敏感度,从而提高了聚类的效率和效果,降低了算法I/O的开销.算法不仅能挖掘出各种形状的聚类,并能准确的挖掘出数据集中突出的聚类.  相似文献   

12.
一种基于局部信息的聚类密度度量   总被引:1,自引:0,他引:1  
为有效处理密度不均匀聚类问题,以数据集蕴涵的局部信息为出发点,提出一种数据点密度度量———松散度,用以揭示数据点与其相邻数据点的相对紧密程度及类属关系,从而解决密度不均匀聚类问题.依据松散度的性质实现了一种基于松散度的聚类方法,以验证松散度度量的有效性.实验结果表明,使用松散度来度量数据点的聚类密度信息可以有效处理密度不均匀聚类问题.  相似文献   

13.
基于SNN相似性和密度的聚类算法是当前主要的无监督聚类方法之一,该类算法在发现不同大小形状簇的聚类过程中都取得了较好的结果。但是该类算法也存在局限性,如Jarvis-Pat-rick算法通过单连结的方式发现簇,可能分割真正的簇或者合并应该保持分离的簇,而SNN密度类算法的Eps,MinPts参数的确定对用户来说是比较困难的。针对该类问题,本文对聚类过程中的局部集聚特征进行了分析和定义,提出了利用数据的局部集聚特征来控制聚类过程的的聚类算法。通过验证,该算法对发现不同密度以及任意形状的数据集合的聚类分析问题是有效的,突出了数据分析的局部集聚特征,改进了数据聚类的质量。  相似文献   

14.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

15.
从样本点的核密度估计出发,对集聚型点模式的集聚中心的个数和位置的确定方法进行了探索,提出一种集聚中心的核估计算法.与原有的基于几何概率提取集聚中心的方法相比,该算法对只有一个集聚中心的情况以及任意维数的样本空间点具有更好的估计效果.  相似文献   

16.
DBSCAN方法是一种典型的基于密度的聚类算法,因此该方法具有可以发现任意形状的类的特点,但其聚类的效率并不是很高.如果考虑将传统的网格技术引入到DBSCAN聚类算法中,虽然一定程度上会提高聚类的效率,但其聚类的质量显得较为粗糙.文章通过引入自适应网格技术,使得DBSCAN聚类算法的效率和质量都有所提高.对比数值实验表明,基于自适应网格的DBSCAN聚类算法的聚类效果是良好的.  相似文献   

17.
为解决网格聚类算法中对参数过于敏感、无法自动识别不同密度梯度类以及不同梯度类间划分不够精确等问题,提出了相交网格下基于最优划分的多密度梯度网格聚类算法(OPMDG).该算法只需用户输入一个大致的密度阀值范围,网格边长自动计算并可自动调节适应,减少了算法对参数的敏感性;提出了二重划分技术,可挖掘不同密度梯度的类;对于处于不同类上的交界点,引入了电荷间吸引力的概念,能有效解决类间聚类精度不高等问题.实验结果表明该算法是有效的.  相似文献   

18.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

19.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法.结合距离优化法和密度法,构建一种数据集密度度量方法.选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析.结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小.可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号