首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

3.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

4.
针对密度聚类算法对邻域参数设置敏感的问题,提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下,可以自适应地根据样本间距离关系确定邻域半径得到样本密度,并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性,同时提出一种新的模糊聚类有效性指标以判断最佳聚类数,消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验,发现本文算法在对数据进行聚类时,聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高.  相似文献   

5.
提出一种基于改进密度聚类的异常检测算法(ADIDC), 通过在各特征列上分别进行密度聚类, 并根据各特征对正常轮廓的支持度进行特征加权, 解决了聚类分析方法在异常检测应用中误报率较高的问题. 通过大量基于异常检测数据集 KDD Cup 1999的实验表明, 其相对于传统异常检测方法在保证较高检测率的前提下, 有效地降低了误报率, 对某些与正常行为相近的特殊攻击检测率明显提高. 同时利用特征权值进行特征筛选提高了其检测性能和效率, 更适应实时检测要求.  相似文献   

6.
首先介绍单视角谱聚类算法的原理,在此基础上,研究谱聚类在多个视角框架下的应用,同时也研究了多视角谱聚类算法在大数据中的应用,最后对多视角谱聚类算法研究方向进行总结.  相似文献   

7.
针对密度峰值聚类算法(DPC)中存在的截断距离难以确定、局部密度定义单一的问题,本文提出了一种基于密度万有引力改进的引力峰值聚类算法(DG-DPC算法)。该算法使用相互K近邻的方法对相似性度量和局部密度进行了重新定义,然后将引力参数引入到DPC算法中,并通过新的相对局部密度与引力参数的倒数作出决策图选取簇中心,对数据集中的点进行分配。仿真实验表明,DG-DPC算法对于人工合成数据集和UCI数据集都有效,且准确率相对于基于相对密度优化的密度峰值聚类算法(RE-DPC算法)、DPC算法、基于间隙自动中心检测的密度峰值聚类算法(GAP-DPC算法)分别平均提高了31.07%、21.60%、17.20%。  相似文献   

8.
经典KNN算法在处理高维数据或样本数繁多的样本集时需要巨大的计算量,这使其在实际应用的过程中存在着一定的局限性;提出一种基于聚类和密度裁剪的改进KNN算法。在训练阶段,首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到若干个密度比较均匀的类簇并将其转化为超球。在测试阶段,采用两种方法,第一种是找出距离待测样本最近的k个超球,然后将这个k个超球内的训练样本作为新的训练样本集,在这个新的训练样本集上使用经典KNN算法得到待测样本的类别;第二种则是找出距离待测样本最近的1个超球,然后根据该超球的类别得出待测样本的类别。实验采用8个UCI样本集进行测试,实验结果表明,该算法同经典KNN相比具有良好的性能,是一种有效的分类方法。  相似文献   

9.
为了降低谱聚类采用高斯函数作为相似性度量方式对参数的敏感性,以及能够发现多密度簇的同时降低噪声点的干扰,提出了一种将基于均衡接近度的灰关联分析结合到谱聚类中的新方法,采用加权的自适应相似性度量方式。最后用改进的FCM算法对其进行聚类。在真实数据集和人工数据集上分别对提出的算法和现有算法进行了比较分析。研究结果表明,提出的新算法能够消除参数的影响,具有更高的聚类精度。聚类精度采用F测度指标。  相似文献   

10.
针对密度峰值聚类(density peak clustering, DPC)算法不能根据数据集自适应选取聚类中心和截断距离dc,从而不能自适应聚类的问题,提出了一种自适应的密度峰值聚类(adaptive density peak clustering, ADPC)算法.首先,提出了一个综合考虑局部密度ρi和相对距离δi的参数μi,根据μi的排列顺序及下降趋势trend自动确定聚类中心.然后,基于基尼系数G对截断距离dc做了自适应选择.最后,对ADPC算法做出了实验验证,并与DPC算法和K-means算法进行了对比.实验结果表明,ADPC算法具有较高的ARI,NMI和AC值,具有较好的聚类效果.  相似文献   

11.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

12.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

13.
传统聚类算法如k-means算法存在对样本空间形状敏感、一个样本点只能严格属于一个聚簇、需要人工指定聚簇数目等不足,这些不足之处都限制了文档聚类质量的提升。现有的模糊谱聚类算法只能解决前两个问题,而对于聚簇数目的自动确定却无能为力,因此本文提出一种自适应模糊谱聚类算法,该算法在模糊谱聚类的基础上引入自适应算法,解决聚类数目需要人工指定的问题。实验表明,将该方法用于文本聚类中可以取得较好的效果。  相似文献   

14.
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用。提出的基于相对密度的聚类算法,在继承上述优点的基础上,有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

15.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

16.
一种改进的基于密度的DBSCAN聚类算法   总被引:1,自引:0,他引:1  
主要讨论数据挖掘领域中一种基于密度的DBSCAN聚类算法,并对算法进行改进。利用取样技术缩小数据库的规模,减少算法的运行时间。利用遗传算法对聚类结果进行优化,保证聚类的质量。给出了一种基于取样的DBSCAN算法及其遗传优化。最后实验证明了算法的有效性。  相似文献   

17.
FDBSCAN算法是对典型密度聚类算法DBSCAN的一个改进算法,在一定程度上加快了聚类速度,但其在聚类过程中容易丢失一部分对象,成为噪声,影响了聚类结果.文章针对FDBSCAN算法存在的问题进行了深入的研究,提出从核心领域中的核心点中选择代表对象的方法,在一定程度上解决了丢失点的问题.  相似文献   

18.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

19.
提出一种基于自适应层次谱聚类与遗传优化的算法求解大规模TSP,算法首先构建一种自适应相似矩阵,并应用到谱聚类算法中实现城市的初步聚类,当聚类城市规模超过设定阈值,用上述自适应谱聚类算法进行层次聚类,直到每类城市规模均小于阈值;其次,采用结合了最近邻与禁忌思想的改进遗传算法求解GTSP,得类间最短回路;最后,用改进遗传算法求解每类城市群的最优解,综合类间GTSP最短回路以及类内TSP最优解,即得大规模旅行商问题的最优解.实验结果表明,该算法能够取得相对较优解且求解效率显著提高.  相似文献   

20.
聚类算法通常用于数据的聚类,但只要对算法结果从另一角度进行分析,则可发现它还可以用于异常数据的检测. 首先介绍了数据挖掘中的聚类算法,进而结合具体实例给出应用基于密度的聚类算法DBSCAN进行异常检测的过程,最后指出最终异常数据集的确定还应结合领域专家意见.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号