首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

2.
改进的k-均值算法在聚类分析中的应用   总被引:1,自引:0,他引:1  
介绍了在聚类中广泛应用的经典k-均值算法,并针对其易受随机选择初始聚类中心和孤立点的影响的不足,给出了改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行了改进。并做了改进前后的对比实验和应用。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择初始聚类中心的影响也有所降低。  相似文献   

3.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

4.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

5.
基于孤立点和初始质心选择的k均值算法的改进与应用   总被引:1,自引:0,他引:1  
针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法.首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验.结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低.  相似文献   

6.
通过对CURE(Clustering Using Representatives)的研究,在此基础上,针对网络话题文本内容广泛、孤立点较多的特点,增加对孤立点的预处理过程,提出一种适用于网络话题文本聚类的层次聚类算法。该算法能降低算法对孤立点的敏感度,同时提高聚类效率,通过实验证明改进后的算法更适合运用在网络话题文本的快速聚类中。  相似文献   

7.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

8.
《河南科学》2016,(3):348-351
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.  相似文献   

9.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

10.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

11.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

12.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

13.
为了避免随机选取初始聚类中心点的缺陷,利用最大最小距离的方法确定初始聚类中心点.实验结果表明,和传统的模糊C均值聚类(FCM)算法相比,所提聚类算法具有较高的稳定性和准确性,所分割的胼胝体图像边缘信息更加清晰.  相似文献   

14.
提出了一种基于模糊核聚类的彩色图像量化算法。首先用中位切割算法对图像进行初始量化,然后依据NBS距离与人类视觉对颜色差别的定量关系确定初始聚类中心,最后结合模糊核聚类方法对Munsell空间的每个像素进行聚类以实现对颜色的修改,从而完成图像的量化。仿真结果表明:所提算法在量化数目相同的情况下,量化效果明显优于中位切割算法和模糊C均值算法。  相似文献   

15.
遗传算法(Genetic Algorithm,简称GA)是一类模拟生物界的进化规律(适者生存,优胜劣汰遗传机制)而形成的一种最适应全局优化概率搜索算法。针对常规动态聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题,本文提出了一种基于GA的动态聚类方法,并将它应用到数据库的数据分析中。计算结果表明,该方法是一个具有全局最优解的动态聚类方法,其结果明显好于K-均值聚类算法。  相似文献   

16.
本文提出了一种基于遗传算法,结合网站的拓扑结构,对网站用户进行聚类分析的模型,阐述了遗传算法在优化过程中染色体编码、遗传算子的设计等问题.实验证明能解决常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题,是一种有实用价值的方法.  相似文献   

17.
基于遗传算法的动态文本聚类   总被引:1,自引:0,他引:1  
为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本聚类方法.采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛,得到使聚类划分效果最好的聚类中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标Purity(纯度)也比较好.  相似文献   

18.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

19.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

20.
为了提高小样本集情况下自适应谐振(ART)神经网络聚类的可靠性,提出了基于遗传算法的ART2神经网络训练集优化算法,克服了ART1神经网络编码的稳定性尚未完全解决和只能接受二进制模式的缺陷.利用遗传算法的全局寻优能力,通过对训练样本集添加适当的边界样本点,并将边界样本点和原样本集有机结合,以提高ART2神经网络的泛化性能.对ART2神经网络聚类算法的适当变更,以适应样本集的变化情况,并避免ART神经网络在不同训练阶段产生不同的聚类结果.实验证明,采用本算法后,ART2神经网络的聚类准确度可提高30%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号