首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

2.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

3.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

4.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

5.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。  相似文献   

6.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

7.
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况.  相似文献   

8.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

9.
基于人工蜂群的模糊聚类算法   总被引:2,自引:0,他引:2  
针对模糊C-均值(FCM)聚类算法存在容易陷入局部极小值、对初始值和噪声数据敏感的缺点,提出一种基于人工蜂群(ABC)的模糊聚类算法(ABFM).该算法引入全局寻优能力强的人工蜂群算法来求得最优解作为FCM算法的初始聚类中心,然后利用FCM算法优化初始聚类中心,最后求得全局最优解,从而有效克服了FCM算法的缺点.实验结果表明,新算法与FCM聚类算法相比,提高了算法的寻优能力,并且迭代次数更少,收敛速度更快,聚类效果更好.  相似文献   

10.
对近年来k-means算法的研究现状与进展进行总结.首先对较有代表性的初始聚类中心改进的算法,从思想、关键技术和优缺点等方面进行分析.其次选用知名数据集对典型算法进行测试,主要从就同一个数据集不同改进算法的聚类情况进行对比分析,为聚类分析和数据挖掘等研究提供有益的参考.  相似文献   

11.
模糊C-均值(FCM)聚类算法的改进   总被引:6,自引:0,他引:6  
付辉 《科学技术与工程》2007,7(13):3121-3123
针对目前模糊C-均值聚类算法不适用于有噪声和样本不均衡等问题,借助改进算法AFCM和WFCM的思想,提出另一种新的聚类算法。它是AFCM和WAFCM结合的一种算法,但有着更好的健壮性和聚类效果。  相似文献   

12.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

13.
给出了一个利用模糊相似矩阵直接进行聚类的方法。  相似文献   

14.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

15.
多维数据的聚类结果可视化技术综述   总被引:1,自引:0,他引:1  
在很多情况下,人们不仅需要聚类算法给出类标,还需要掌握聚类结构和数据分布情况.为满足后一项需求,出现了许多聚类结果的可视化(简称聚类可视化)技术,以图形的方式将多维数据和其聚类结果显示在二维或三维空间.从直接在二维或三维空间显示数据及其聚类结果、数据经降维(或映射)后显示以及其它显示方式3种角度综述了常用的30多种聚类可视化方法,并对各种方法的优缺点和适用性进行了分析和讨论.  相似文献   

16.
基于兴趣度网页智能链接的聚类方法   总被引:1,自引:0,他引:1  
提出一种新的用户访问聚类方法,采用模糊聚类原则,将已有的用户访问主页的URL记录快速、有效地为有相似兴趣、爱好的访问者访问记录群聚类 利用这种方法对访问用户聚类,再根据其聚类结果推荐给用户相应的动态链接.  相似文献   

17.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

18.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

19.
复杂系统故障诊断中的模糊聚类方法   总被引:25,自引:3,他引:22  
为了提高复杂系统故障的诊断能力,采用模糊C-均值聚类算法对原始采样数据进行聚类,并通过模糊传递闭包法和绝对值指数法得到模糊C-均值法的初始迭代矩阵.用划分系数、划分熵和分离系数来评价聚类的结果是否最佳.采用模糊聚类方法可避免研究复杂系统的内部特性,比仅依据其外部输出的数据进行故障诊断方法简便.通过某飞行器测试系统的应用,表明采用模糊聚类方法后,提高了判别故障的准确率.  相似文献   

20.
双层结构的流数据聚类算法   总被引:1,自引:1,他引:0  
提出一种双层体系结构用于流数据上的聚类分析. 快速计算层采用快速但粗糙的方法得到中间结果; 精确分析层采用更加复杂的方法对中间结果进行深入分析, 用于发现复杂的聚类. 实验结果显示, 这种结构在满足流数据快速分析要求的基础上能够得到更好的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号