首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
改进的k-均值算法在聚类分析中的应用   总被引:1,自引:0,他引:1  
介绍了在聚类中广泛应用的经典k-均值算法,并针对其易受随机选择初始聚类中心和孤立点的影响的不足,给出了改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行了改进。并做了改进前后的对比实验和应用。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择初始聚类中心的影响也有所降低。  相似文献   

2.
肖会敏  刘臣  杨晓兵 《河南科学》2007,25(1):107-111
K均值算法的聚类个数K需指定,聚类结果与数据输入顺序相关,而且易受孤立点影响.针对这些缺陷,首先以实验的方式证明了找到最优的初始质心是K-MEANS算法有效的条件,对局部版的微粒群优化算法(PSO)进行了改进,利用其局部搜索的功能查找到K均值算法的最优初始质心和存在的孤立点,克服了K均值算法的这些缺陷。  相似文献   

3.
针对k均值聚类算法的聚类结果易受初始中心随机选择和噪声的影响,本文提出了一种改进的快速全局k均值聚类算法,该方法将聚类中心选择转化为一系列子问题,解决了k均值原始聚类中心的随机选择而导致聚类结果不正确的问题,通过中值方法选择新一轮聚类中心,缓解了k均值聚类结果易受噪声影响的问题.实验结果表明,本文提出方法提高了图像聚类分割的准确性.  相似文献   

4.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

5.
王林  吴海桥  郑友石 《科技信息》2010,(32):I0136-I0137
K均值算法是聚类方法中常用的一种划分方法,有很多优点,但也存在不足之处,它对球状、凸形分布的数据具有很好的聚类效果,但对样本的输入顺序敏感,可能产生局部最优解,而且受孤立点影响比较大。本文针对这些不足之处,主要从数据预处理。初始聚类中心的选择和迭代过程聚类种子计算三方面进行改进,并做了改进前后算法的对比实验。结果表明,改进后的算法比原k均值算法具有更高的准确性,受孤立点的影响也大大降低。  相似文献   

6.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

7.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

8.
K-均值聚类算法是聚类算法中比较典型的算法之一,在其各类改进算法中都受到了离群点、初质心、类个数等因素的干扰。本文利用相似密度提出一种新的聚类初始质心选取和离群点判别方法,对K-均值聚类算法进行了改进。通过实验证明改进算法提高了聚类的有效性和稳定性。  相似文献   

9.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

10.
《河南科学》2016,(3):348-351
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号