期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于孤立点和初始质心选择的k均值算法的改进与应用 总被引：1，自引：0，他引：1

顾洪博苏冬娜《陕西理工学院学报(自然科学版)》2009,25(3):45-49

针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法.首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验.结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低. 相似文献

2.

一种优化初始聚类中心的k-means算法

下载免费PDF全文

张明微吴海涛《上海师范大学学报(自然科学版)》2016,45(5):599-603

随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高. 相似文献

3.

一种改进的K均值聚类算法

王林吴海桥郑友石《科技信息》2010,(32):I0136-I0137

K均值算法是聚类方法中常用的一种划分方法,有很多优点,但也存在不足之处,它对球状、凸形分布的数据具有很好的聚类效果,但对样本的输入顺序敏感,可能产生局部最优解,而且受孤立点影响比较大。本文针对这些不足之处,主要从数据预处理。初始聚类中心的选择和迭代过程聚类种子计算三方面进行改进,并做了改进前后算法的对比实验。结果表明,改进后的算法比原k均值算法具有更高的准确性,受孤立点的影响也大大降低。相似文献

4.

一种改进的全局K-均值聚类算法 总被引：3，自引：0，他引：3

谢娟英蒋帅王春霞张琰谢维信《陕西师范大学学报(自然科学版)》2010,(2)

将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越. 相似文献

5.

基于Leader的K均值改进算法

张琼张莹白清源谢丽聪谢伙生《福州大学学报(自然科学版)》2008,36(4):493-496

研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的. 相似文献

6.

一种改进的快速全局k均值聚类分割算法

刘晨谢敦友《青海师范大学学报(自然科学版)》2015,(2)

针对k均值聚类算法的聚类结果易受初始中心随机选择和噪声的影响,本文提出了一种改进的快速全局k均值聚类算法,该方法将聚类中心选择转化为一系列子问题,解决了k均值原始聚类中心的随机选择而导致聚类结果不正确的问题,通过中值方法选择新一轮聚类中心,缓解了k均值聚类结果易受噪声影响的问题.实验结果表明,本文提出方法提高了图像聚类分割的准确性. 相似文献

7.

基于2d-距离改进的K-means聚类算法研究 总被引：1，自引：0，他引：1

陈福集蒋芳《太原理工大学学报》2012,43(2):114-118

为了解决原始K-means算法随机选取聚类中心对聚类结果产生较大影响的不足和孤立点的存在对聚类精度的破坏,以及两者之间的相互牵制性,采用基于2d-距离的DKC值来对原始样本数据集进行预处理以分辨孤立点,同时确定初始的聚类中心,达到消除两者相互影响的效果,使得聚类中心相对稳定,改进后的算法较原始的算法在准确度上得到了改进。相似文献

8.

K-means聚类算法初始中心选择研究

《河南科学》2016,(3):348-351

传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进. 相似文献

9.

基于改进的K-均值聚类的新发展用户虚开分析

徐忠健陈泳刘群《井冈山学院学报》2010,31(5)

针对代理渠道发展的新用户质量良莠不齐,将聚类算法引入新发展用户质量分析中,构建虚开用户模型识别代理商虚开用户.同时,还提出了k-均值聚类的改进算法.该算法结合数据样本分布以及所在区域的密度选取初始聚类中心,用于消除传统k-均值算法对初始聚类中心的敏感性.该算法应用于新发展用户的质量分析上,在虚开用户分析方面取得了良好的效果. 相似文献

10.

基于改进微粒群算法的K-MEANS聚类和孤立点查找

肖会敏刘臣杨晓兵《河南科学》2007,25(1):107-111

K均值算法的聚类个数K需指定,聚类结果与数据输入顺序相关,而且易受孤立点影响.针对这些缺陷,首先以实验的方式证明了找到最优的初始质心是K-MEANS算法有效的条件,对局部版的微粒群优化算法(PSO)进行了改进,利用其局部搜索的功能查找到K均值算法的最优初始质心和存在的孤立点,克服了K均值算法的这些缺陷。相似文献