首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

2.
【目的】研究评价问题中评价对象因个体差异性的聚类问题。【方法】首先引入夹角余弦刻画评价对象个体间倾向性上的差异大小,其次利用余弦相似度与欧式距离刻画评价对象的总体相似度,对Tzortzis和Likas提出的min-max K-means聚类算法进行改进。【结果】利用某高校参与评价教师的指标数据集进行初步的数值实验,证明了改进K-means算法的有效性。【结论】余弦相似度刻画考核对象的偏向性差异,很好的克服了欧式距离只考虑数值绝对值上的差异,具有重要的现实意义。  相似文献   

3.
K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受孤立点影响的问题,能产生高质量的聚类结果。  相似文献   

4.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

5.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

6.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

7.
基于信息熵改进的 K-means 动态聚类算法   总被引:1,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

8.
工件表面缺陷的存在影响工件产品的质量以及工件的安全使用,传统的工件表面缺陷检测由人工完成,工作量大且易受到检测人员主观因素的影响,很难保证检测的效率与精度.本文提出了一种基于改进的K-means算法的工件表面缺陷分割算法,将自适应人类学习优化算法应用到K-means聚类算法中,使自适应人类学习优化算法初始化K-mean...  相似文献   

9.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

10.
针对恒定调度模型分布式电源选址定容的配置方案实用性差的缺陷,考虑分布式电源( DG: Distributed Generation) 出力和负荷需求的时序性与不确定性,建立以配电网系统总投资成本、总电压偏差和系统网损最小化的多目标调度模型。首先,通过蒙特卡洛算法随机模拟全年风-负荷场景,并采用K-means 聚类法对全年场景进行缩减。其次,引入轮廓系数对其改进以获取最优的聚类数。最后,通过快速非支配排序遗传算法( NSGA-Ⅱ) 与无偏折中策略进行优化处理。以IEEE33 节点配电系统为例与标准遗传算法做对比仿真实验,验证了所提算法的有效性和优越性。  相似文献   

11.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

12.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

13.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度.  相似文献   

14.
深层火山岩气藏研究一直是地震勘探的难点,火山岩储层固有的岩性和储层空间的复杂性使其油气预测非常困难。针对其特殊性,本文采用基于密度的K-means算法对深层火山岩含气、含水岩心进行聚类识别。通过分析该算法的聚类识别结果,该算法具有较高的识别准确度与稳定性,因而对地震反演和流体识别具有一定的参考价值。  相似文献   

15.
聚类分析是一种重要的数据挖掘方法,K-means算法是其中最常用的基于划分的方法。本文提出了一种基于初始均值点离散化的改进K-means算法。改进的算法在选取初始均值点时,尽量使初始均值点的分布离散化,解决了传统算法中随机选取初始均值点所造成的一些问题。同时,为了得到更高质量的聚类结果,本文进行了数据集中的离群点检测和自动确定参数k的最佳取值两方面的前期处理工作。实验证明,改进后的算法明显优于传统算法。  相似文献   

16.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

17.
从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值.  相似文献   

18.
基于K均值的带变异粒子群聚类算法   总被引:1,自引:0,他引:1  
针对K均值算法的搜索结果依赖于初始聚类中心以及粒子群算法早熟收敛的缺点,提出了一种基于K均值的带变异粒子群聚类算法.该算法通过粒子群算法来弥补K均值算法的不足,根据粒子的收敛情况判断K均值操作的时机,提高了搜索性能,并采用变异操作来跳出局部极值.分别用K均值算法、PSO-K均值算法和该算法对3种实际数据进行了聚类测试,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号