首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

2.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

3.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

4.
为了提高电力负荷曲线聚类精度,文中提出了一种基于核主成分分析(KPCA)和改进K-means算法的电力负荷曲线聚类方法。该方法首先在划分聚类算法K-means基础上融入密度聚类思想,提出了融合密度思想的K-means算法(DK-means算法),并在电力负荷曲线实验集上对比分析其聚类效果;接着在实验集上比较各种降维算法的降维聚类精度和降维速度;最后分析KPCA+DK-means组合算法的降维聚类能力。结果表明,戴维森堡丁指数(DBI)更适合作为电力负荷曲线聚类评价指标;以DBI为评价指标,与K-means、BIRCH、DBSCAN和EnsClust 4种聚类算法相比,DK-means的聚类精度更高;与LLE、MDS、ISOMAP 3种非线性降维算法相比,KPCA的降维速度更快;KPCA+DK-means组合算法有良好的降维聚类能力,较DK-means在聚类精度和聚类效率上均有提升。KPCA+DK-means组合算法可以实现电力负荷曲线的高效降维、精确聚类,对用电行为模式的准确提取起关键技术支持作用。  相似文献   

5.
为解决企业客户价值体现问题,提出一种T FA客户细分改进模型,以客户发展空间T、购买频次F和平均购买额A为指标,充分体现客户的价值和发展空间.首先,引入局部密度值ρ和信息熵H,改进K-means聚类算法,以优化传统K-means聚类方法初始聚类中心的选取问题;其次,通过搭建机器学习框架,对选取人工数据集及真实数据集进行...  相似文献   

6.
一种改进的K一均值聚类算法   总被引:2,自引:0,他引:2  
为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低.  相似文献   

7.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

8.
为提高K-means算法全局搜索能力,提升聚类效果,提出一种基于近似骨架和混合蛙跳算法的K-means方法。该方法首先利用经典的混合蛙跳算法取代K-means算法中原有迭代公式,获得更优秀的聚类结果;然后对获得的聚类结果,使用基于近似骨架和混合蛙跳算法的K-means算法不寻找聚类中心,而是直接对簇的划分进行修改。UCI数据集实验结果表明,使用改进的聚类算法获得的聚类结果,较其他算法结果更为优秀。最后将改进后的聚类算法应用到医学眼底病历图像中,可以得到较好的血管切割效果。  相似文献   

9.
针对果蝇算法对高维函数收敛精度低的缺点,提出了一种改进的基于扇形搜索的果蝇算法(Fan search-Fruit Fly Optimization Algorithm,FS-FOA),该算法在原果蝇FOA算法的基础上改进了果蝇群体的搜索路径,并赋予果蝇个体趋利性,使更多的果蝇个体朝着味道浓度更大的方向前进,使果蝇群体的搜索方向有更多的选择性,增加果蝇算法在处理高维函数问题上的收敛速度和收敛精度;并将改进的FS-FOA算法与K-means聚类相结合,提出一种FS-K聚类算法,与原K-means聚类和原果蝇(FOA)算法进行对比实验,引入5个经典的测试函数对原FOA算法和FS-FOA算法寻优结果进行测试,结果表明采用FS-FOA算法具有更高的收敛精度;引入5个UCI公共数据集对改进FS-K聚类算法和原K-means算法、SOM聚类算法、FCM聚类算法进行测试,结果表明FS-K聚类算法具有更好的聚类效果。  相似文献   

10.
K-means聚类算法具有实现简单、普及性强的优势,但存在聚类中心选取随意性强的劣势.文章提出增加一个密度变量的方式来选出合理的初始聚类中心,通过对校园网上热点话题聚类分析的实验,检验出改进K-means聚类算法聚类效果好.  相似文献   

11.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

12.
将K-means聚类算法在对事物分类中的优点用于判断变压器的故障中.并针对K-means聚类法在给定初始聚类中心不良的问题上进行改进.将改进的K-means聚类算法与三比值法相结合,以此来诊断变压器的多种常见故障.应用MATLAB分别对改进前后的K-means算法进行仿真,并将改进后的仿真结果同改进前K-means聚类算法的结果进行对比分析.结果表明,改进的K-means聚类算法不但能精确、有效地对变压器故障进行诊断,并且改进的K-means聚类法使仿真结果更加准确可靠.  相似文献   

13.
针对K-means算法易受聚类中心影响而陷入局部最优的问题,提出一种基于改进森林优化算法的K-means聚类算法。首先,将衰减因子引入传统算法中提出一种自适应微量步长方法,以加快算法收敛速度,并改善算法的全局搜索与局部开发能力;然后,结合遗传算法中的算术交叉操作思想,改进传统算法全球播种阶段的选择策略,使得算法能够跳出局部最优,提高算法优化精度。通过基准测试函数实验,验证了改进算法的有效性和优越性。最后,结合改进算法和K-means算法,提出一种新的聚类算法,并通过在UCI数据集上的实验结果表明,提出的聚类算法具有较高的聚类准确率。  相似文献   

14.
基于Spark平台的岩石图像聚类分析   总被引:1,自引:0,他引:1  
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。  相似文献   

15.
从自检的角度对进化K-means聚类算法进行了改进,在分裂后通过评价函数评价聚类结果,保证正确的分裂能够连续进行,同时对不正确的分裂进行阻止.在UCI数据库中的Iris和Wine数据集上进行实验,验证了引入自检策略的进化K-means算法比进化K-means算法优越.  相似文献   

16.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

17.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

18.
负荷聚类特性分析是实现配电网的定制电力、高品质供电、高可靠性供电的重要基础.然而现有的Kmeans聚类分析方法,受限于数据样本集和聚类初始中心的选取等,会出现因初始中心不同造成聚类结果差异大的问题.为此,针对配电网负荷数据特点,提出一种基于改进萤火虫算法和K-means算法结合的配电网负荷聚类特性分析方法.利用萤火虫优化算法全局搜索能力强的优势,考虑类内相似度和类间差异度,寻优K-means算法初始中心,使聚类结果的聚类有效性指标取得最小值;进一步针对萤火虫算法在处理负荷数据时的弱点,通过密度法为萤火虫算法加入优秀初代个体,改进吸引公式以及个体间概率吸引移动的方式优化迭代过程中的个体移动方式,加快萤火虫算法前期收敛速度,并实现后期稳定收敛,算法更快地接近极值,计算速度更快.算例验证了本文所提算法的聚类有效性,并针对某配电台区电力负荷数据,寻得K-means算法最优初始中心,使得聚类结果的戴维森堡丁指标(Davies-Bouldinindex,DBI)最小,负荷聚类结果类内差异小,类间差异大,最终聚类中心的特征代表性强,为负荷类型划分、聚类特性分析提供重要依据,为需求侧差异化电力服务定制...  相似文献   

19.
针对密度峰值聚类(density peak clustering, DPC)算法不能根据数据集自适应选取聚类中心和截断距离dc,从而不能自适应聚类的问题,提出了一种自适应的密度峰值聚类(adaptive density peak clustering, ADPC)算法.首先,提出了一个综合考虑局部密度ρi和相对距离δi的参数μi,根据μi的排列顺序及下降趋势trend自动确定聚类中心.然后,基于基尼系数G对截断距离dc做了自适应选择.最后,对ADPC算法做出了实验验证,并与DPC算法和K-means算法进行了对比.实验结果表明,ADPC算法具有较高的ARI,NMI和AC值,具有较好的聚类效果.  相似文献   

20.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号