共查询到20条相似文献,搜索用时 468 毫秒
1.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性. 相似文献
2.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。 相似文献
3.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。 相似文献
4.
《太原科技大学学报》2016,(5)
针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。 相似文献
5.
6.
一种改进的全局K-均值聚类算法 总被引:3,自引:0,他引:3
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越. 相似文献
7.
多阶段聚类—朴素贝叶斯的异常检测 总被引:1,自引:0,他引:1
针对异常检测手段用来标定数据集中明显的不同于其他数据的对象,提出多阶段聚类旨在解决噪声数据的引入和缺失属性样本的处理,并改变传统的贝叶斯分类的被动学习为主动学习的方式来构造性能优越的分类器。在数据预处理阶段,利用密度聚类滤去噪声点,密度聚类的输出作为下一阶段的K-means聚类的输入,提高了K-means的分类准确率。K-means负责对缺失属性的样本进行处理。在分类阶段,利用adaboost学习算法优化朴素贝叶斯分类器,使其获得较好的分类效果。 相似文献
8.
K-means算法是应用最广泛的聚类算法之一,但存在明显缺陷:对初始值敏感,还需给定类的数目.层次K-means算法提出将多次k取固定值的K-means运算所得到的中心点作为类的代表,并通过对这些中心点进行层次聚类来得到更好的初始聚类中心,然而在中心的融合过程中并没有有效利用类的几何信息.从类的几何特征入手,提出一种基于类的分位数半径的动态K-means算法(QRD K-means).此算法在层次K-means的基础上令每次K-means运算的k值变动起来,且又引入了分位数半径的概念,用样本点到类中心距离的分位数作为类的半径,将样本点间的关系简化为各个类的分位数半径与类中心的关系.通过中心点间距离与分位数半径大小的比较对中心点进行融合形成新类,从而快速给出良好的聚类结果,同时也确定了类的数目.在仿真实验中,通过与不同算法在时间和分类精确度上的比较分析,也证明该方法快速有效. 相似文献
9.
一种基于余弦因子改进的混合聚类算法 总被引:1,自引:0,他引:1
为了解决传统的K-means聚类算法全局优化性差,容易陷入局部最优的问题,用具有全局自适应优化特点的遗传算法与K-means算法结合来改善聚类效果.在此基础上提出了基于余弦因子改进的混合聚类算法(SGKM),在交叉和变异操作时用基因余弦因子(GCOS)进行个体控制,确保差的个体不会被引入下一代,并采用交叉和变异概率的自适应控制,结合了K-means算法的高效局部搜索和遗传算法的全局优化能力.实验结果表明,与其他基于K-means算法改进的聚类算法相比,SGKM算法能获得更小的簇内距和更大的簇间距,且数据对象的分类准确率有一定的提高.应用SGKM算法进行聚类不易受到不良个体的干扰,可以有效地改善聚类效果. 相似文献
10.
一种改进的K-means聚类算法 总被引:1,自引:0,他引:1
于丽 《辽宁师专学报(自然科学版)》2010,12(2):1-1,18
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法. 相似文献
11.
在聚类分析中,模糊k-均值算法是目前应用最为广泛的方法之一,然而该算法对初始化敏感,容易陷入局部极值点,为此,提出一种基于克隆选择的模糊聚类新算法以实现全局优化处理.在新算法中,由于克隆算子能够将进化搜索与随机搜索、全局搜索和局部搜索相结合,因而通过对候选解进行克隆算子操作,能够快速得到全局最优解.用人造数据和IRIS实际数据所做测试结果表明了新算法的有效性. 相似文献
12.
为了提高合成孔径雷达(synthetic aperture radar,SAR)影像舰船目标的召回率和准确率,降低漏检率,通过以YOLOv3(you olny look once)为检测框架,对锚点框(anchor boxes)生成机制进行改进,提出了利用K-median++生成anchors的聚类算法.结果表明不当的初始聚类中心会降低anchor boxes的平均交并比(mean intersection over union,meanIOU);同时由于SAR舰船数据集存在少量大尺寸box(离群数据点),因此在实验中使用中位数代替平均值,对簇群计算聚类中心,聚类后anchor boxes的meanIOU高达77.10%,在均值聚类算法(K-means clustering algorithm)基础上提高了3.7个百分点,并且减少了迭代次数,计算量得到大幅度降低.可见相比传统基于K-means的YOLOv3,检测效果有了明显提升,召回率达到92.21%,均值平均精度(mean average precision,mAP)达到93.56%,分别提高了2.55、3.82个百分点. 相似文献
13.
The k-means clustering algorithm is one of the most commonly used algorithms for clustering analysis. The traditional k-means algorithm is, however, inefficient while working on large numbers of data sets and improving the algorithm efficiency remains a problem. This paper focuses on the efficiency issues of cluster algorithms. A refined initial cluster centers method is designed to reduce the number of iterative procedures in the algorithm. A parallel k-means algorithm is also studied for the problem of the operation limitation of a single processor machine when given huge data sets. The analytical results demonstrate that these improvements can greatly enhance the efficiency of the k-means algorithm, i.e., allow the grouping of a large number of data sets more accurately and more quickly. The analysis has theoretical and practical importance for work on the improvement and parallelism of cluster algorithms. 相似文献
14.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果. 相似文献
15.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题. 相似文献
16.
提出了一种基于改进混合并行遗传算法的多文档文摘方法.该方法将k-means聚类算法的高效、局部搜索特性,和并行遗传算法的全局优化能力有机结合,解决了k-means算法对初始聚类中心的选择较为敏感,易于陷入局部最优等问题,提高了多文档聚类算法的效率和精确度. 相似文献
17.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。 相似文献
18.
分析了k-means算法的缺陷、入侵检测特点和网络中数据的特点,提出了一种基于密度的无监督2次聚类算法—KD算法。该算法聚类使用改进的k-means算法并引入基于密度聚类算法的优点,以提高对单种入侵数据集及混合入侵数据集的检测效果。实验结果表明,该算法具有较高的检测率和较低的误检率。 相似文献
19.
k-means聚类算法的MapReduce并行化实现 总被引:1,自引:0,他引:1
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性. 相似文献
20.
鲁棒的模糊C均值和点云双边滤波去噪 总被引:1,自引:0,他引:1
提出了一种将模糊C均值(FCM)聚类算法与双边滤波方法结合进行三维点云数据的去噪算法.该算法首先用模糊C均值聚类算法对大尺度噪声进行去除,并对小尺度噪声进行一定程度的光顺;然后用点云双边滤波器对小尺度噪声进行光顺.该算法将噪声分成大尺度和小尺度分步处理,不需迭代计算,提高了计算效率,也避免了光顺过程中产生过光顺问题.实验结果表明,本文方法可以在较好地保留尖锐特征的同时,有效地去除噪声. 相似文献