首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
陈蓉  李艳萍 《科学技术与工程》2012,12(35):9725-9729
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。  相似文献   

2.
针对密度峰值聚类算法(DPC)中存在的截断距离难以确定、局部密度定义单一的问题,本文提出了一种基于密度万有引力改进的引力峰值聚类算法(DG-DPC算法)。该算法使用相互K近邻的方法对相似性度量和局部密度进行了重新定义,然后将引力参数引入到DPC算法中,并通过新的相对局部密度与引力参数的倒数作出决策图选取簇中心,对数据集中的点进行分配。仿真实验表明,DG-DPC算法对于人工合成数据集和UCI数据集都有效,且准确率相对于基于相对密度优化的密度峰值聚类算法(RE-DPC算法)、DPC算法、基于间隙自动中心检测的密度峰值聚类算法(GAP-DPC算法)分别平均提高了31.07%、21.60%、17.20%。  相似文献   

3.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

4.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

5.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

6.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。  相似文献   

7.
一种基于核的模糊聚类算法   总被引:4,自引:2,他引:4  
结合核技术与改进的模糊c均值算法聚类准则提出一 种基于核的模糊聚类算法. 通过引入核函数, 样本点被非线性变换映射到高维特征空间进行聚类, 提高了聚类性能. 同时, 算法改进了模糊c-均值聚类模型中的概率型约束条件, 使其对噪声和野值点具有较好的鲁棒性. 在真实数据和人造数据上与常用聚类算法进行了对比实验, 结果表明该算法具有较低的时间、 空间复杂度与较好的聚类性能.  相似文献   

8.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

9.
在介绍了基于信息熵的蚁群聚类算法以及流形学习的方法的基础上,将基于动态切空间排列的流形学习方法与该蚁群聚类算法相结合,给出了一种聚类算法的新思路,并在城市规划布局问题中做了仿真实验,提高了算法的收敛速度。  相似文献   

10.
针对传统聚类算法无法解决区间型数据聚类的问题,文章提出一种基于区间核的聚类算法(Clustering method based on interval kernel,IK-clustering,IK-C)。该方法首先求解区间型数据的区间中值和区间宽度,结合区间宽度和区间中值构造区间核,并采用平衡因子调节二者所占的比重,以有效衡量两个区间型样本的相似性,从而构造区间数据聚类算法。实验结果表明,文章提出的基于区间核的聚类算法在聚类均方差测度上比传统其他区间型数据聚类算法减小了0.019-0.132,说明本文提出的方法能够对区间型数据进行更为有效的聚类,得到了较好的聚类结果。  相似文献   

11.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

12.
一种基于相似性的文档聚类算法   总被引:2,自引:0,他引:2  
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。  相似文献   

13.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

14.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

15.
在静电场中质心位于静电平衡或那些能够被接受的平衡位置处,基于这一思想提出了一种发现簇中心的新方法。根据静电场中电荷间的引力作用来确定质心位置,然后根据相应的准则(如最小距离准则等)使用选定的质心对数据点进行聚类。最后将提出的方法与K-means算法进行实验对比,结果表明该方法克服了K-means算法存在的问题,例如,对噪声和初始聚类中心敏感以及易于陷入局部最优等。该方法具有很高的效率,并且对多维数据集有强的鲁棒性。  相似文献   

16.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

17.
考虑数据点之间局部统计性质的差异,结合K平均算法提出一种基于统计流形的聚类算法.通过计算数据点邻域的均值和协方差,将原始数据点云映射到正态分布族流形中,成为参数点云.在正态分布族流形上构造不同的度量结构,分别应用K平均方法,对参数点云进行聚类,从而将对应的原始数据分类.此算法可以应用到点云去噪.采用基于不同差异函数的算法,对含高密度噪声的点云去噪,并给出模拟仿真结果.仿真结果表明,采用KL散度作为差异函数的算法有较好的去噪效果,体现出该算法在去噪应用中的潜力.   相似文献   

18.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。  相似文献   

19.
一种基于密度的引力聚类算法   总被引:1,自引:0,他引:1  
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量.  相似文献   

20.
在聚类算法和特征向量维数确定的模式样本集中,各样本的每一维表示一个对应特征;鉴于此在基于层次算法的基础上,提出了一种基于概率的快速聚类算法;该算法先对各个特征进行分类,然后按照概率准则,每个向量先自成一类,将其对应概率最大的特征向量合并,减少类别数,直至达到要求为止;用UCI中的Iris和Wine数据集对该算法进行仿真实验,实验数据表明:用该算法进行聚类,能获得较好的聚类结果,说明算法具有一定的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号