首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
K-均值算法中聚类个数优化问题研究   总被引:5,自引:1,他引:5  
在传统的K-均值聚类算法中,聚类数K必须事先给定,然而,实际中K值很难被精确的确定,K值是否合理直接影响着K-均值算法的好坏。针对这个缺点,提出一种优化聚类数算法,根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则,构建了距离评价函数F(S,K)作为最佳聚类数的检验函数,建立了相应的数学模型,并通过仿真实验进一步验证了新算法的有效性。  相似文献   

2.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

3.
针对传统K均值算法需要提前指定聚类数目且易陷入局部最优的问题,提出了一种采用万有引力定律自动确定类数的K均值算法(Gravity K均值算法,GK均值算法)。所提算法利用正交设计方法在数据空间均匀投放若干探测器,探测器根据万有引力定律移动,当两个探测器的距离小于给定阈值时合并为一个,当探测器处于稳定状态时,探测器的个数就是聚类的数目。将得到的探测器作为K均值算法的初始中心点,有效地避免了K均值算法陷入局部最优。实验结果表明:相比传统K均值算法,本文提出的方法可以自动确定聚类数目,并给出较好的初始中心,算法的迭代次数至少减少了25%,聚类正确率平均提高了14%,DB(Davies and Bouldin)聚类评价指标平均降低了0.19。  相似文献   

4.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

5.
基于K均值和免疫算法的聚类分析   总被引:3,自引:0,他引:3  
在分析了经典K均值聚类算法的基础上,提出了一种基于K均值和免疫算法的聚类分析算法,理论分析和实验显示,该算法具有全局寻优能力和对初始数据输入鲁棒性,算法具有计算效率高、聚类能力强的特点.  相似文献   

6.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

7.
在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K—means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K—means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法.  相似文献   

8.
AP算法是Fey BJ.等人提出的一种聚类算法.与传统的K均值聚类算法相比,AP算法不需要选择初始的聚类中心点,因此,聚类结果更客观.但AP算法中相似度矩阵对角线上的偏向值需要人为设定,而这个值会影响到聚类数目;另外,当AP算法发生震荡时,算法无法自动退出震荡.为解决AP算法中的振荡问题及相似度矩阵对角线上元素值的确定问题,王开军等人提出了自适应AP算法,逐步改变偏向值p,得到不同的聚类结果,再根据聚类结果的Silhouette指标,找出最好的Silhouette指标对应的偏向值及聚类结果.当震荡发生时,逐步增加阻尼因子?值,直到算法退出震荡.使用MATLAB实现了自适应AP算法和Silhouette评价指标,为后续的研究工作打下基础.  相似文献   

9.
基于K均值的带变异粒子群聚类算法   总被引:1,自引:0,他引:1  
针对K均值算法的搜索结果依赖于初始聚类中心以及粒子群算法早熟收敛的缺点,提出了一种基于K均值的带变异粒子群聚类算法.该算法通过粒子群算法来弥补K均值算法的不足,根据粒子的收敛情况判断K均值操作的时机,提高了搜索性能,并采用变异操作来跳出局部极值.分别用K均值算法、PSO-K均值算法和该算法对3种实际数据进行了聚类测试,...  相似文献   

10.
肖会敏  刘臣  杨晓兵 《河南科学》2007,25(1):107-111
K均值算法的聚类个数K需指定,聚类结果与数据输入顺序相关,而且易受孤立点影响.针对这些缺陷,首先以实验的方式证明了找到最优的初始质心是K-MEANS算法有效的条件,对局部版的微粒群优化算法(PSO)进行了改进,利用其局部搜索的功能查找到K均值算法的最优初始质心和存在的孤立点,克服了K均值算法的这些缺陷。  相似文献   

11.
在使用K-Means进行文本聚类的研究中,针对K-Means算法缺点,提出了利用DBSACN算法确定参数K的方法,将基于密度的聚类算法应用于特征选取上,使得K值计算有了一定的确定性,从而提高了聚类质量。这种将多种算法混合运用的方法,为文本聚类算法的设计提供一个新的方向。  相似文献   

12.
为了解决遥感影像聚类个数及中心点选取的问题, 提出了一种并行的中心矢量优化选取的遥感影像聚类算法(PCVOS: Parallelized Center Vector Optimized Selection Algorithm for Remote Sensing Image Cluster)。该算法引入模糊评价目标函数并给出了一种染色体评价机制, 提高聚类染色体在类目、空间划分的多样性; 同时引入MPI(Massage Passing Interface)多进程并行技术, 加快了算法运行速度。实验结果表明, 相对于传统的K-Means、ISODATA(Iterative Self Organizing Data Analysis Techniques Algorithm) 和ACDE(Automatic Clustering Differential Evolution)算法, PCVOS 不但可以获得更好的聚类效果, 而且可以充分利用并行资源加快算法运行速度。  相似文献   

13.
K-means聚类分析算法中一个新的确定聚类个数有效性的指标   总被引:11,自引:0,他引:11  
K-means 算法是聚类分析中使用最为广泛的算法之一.然而,该算法通常受到初始聚类条件的影响.关于这个问题的详细讨论可参看文献[1].该算法的另一个不足之处是,聚类数目K必须作为参数由用户提供.笔者提出了一个新的有关聚类有效性的度量指标和优化的K-means 算法.它能自动确定最佳聚类个数.  相似文献   

14.
Immunodominance and clonal selection inspired multiobjective clustering   总被引:1,自引:0,他引:1  
The biological immune system is a highly parallel and distributed adaptive system. The information processing abilities of the immune system provide important insights into the field of computation. Based on immunodominance in the biological immune system and the clonal selection mechanism, a novel data mining method, Immune Dominance Clonal Multiobjective Clustering algorithm (IDCMC), is presented. The algorithm divides an individual population into three sub-populations according to three different measurements, and adopts different evolution and selection strategies for each sub-population. The update of each sub-population, however, is not carried out in isolation. The periodic combination operation of the analysis of the three sub-populations represents considerable advantages in its global search ability. The clustering task is a multiobjective optimization problem, which is more robust with respect to the variety of cluster structures of different datasets than a single-objective clustering algorithm. In addition, the new algorithm can determine the number of clusters automatically, which should identify the most promising clustering solutions in the candidate set. The experimental results, using artificial datasets with different manifold structure and handwritten digit datasets, show that the IDCMC outperforms the PESAII-based clustering method, the genetic algorithm-based clustering technique and the original K-Means algorithm in solving most of the problems tested.  相似文献   

15.
通过对CURE(Clustering Using Representatives)的研究,在此基础上,针对网络话题文本内容广泛、孤立点较多的特点,增加对孤立点的预处理过程,提出一种适用于网络话题文本聚类的层次聚类算法。该算法能降低算法对孤立点的敏感度,同时提高聚类效率,通过实验证明改进后的算法更适合运用在网络话题文本的快速聚类中。  相似文献   

16.
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。  相似文献   

17.
《清华大学学报》2020,25(2):255-269
This paper focuses on multi-modal Information Perception(IP) for Soft Robotic Hands(SRHs) using Machine Learning(ML) algorithms.A flexible Optical Fiber-based Curvature Sensor(OFCS) is fabricated,consisting of a Light-Emitting Diode(LED),photosensitive detector,and optical fiber.Bending the roughened optical fiber generates lower light intensity,which reflecting the curvature of the soft finger.Together with the curvature and pressure information,multi-modal IP is performed to improve the recognition accuracy.Recognitions of gesture,object shape,size,and weight are implemented with multiple ML approaches,including the Supervised Learning Algorithms(SLAs) of K-Nearest Neighbor(KNN),Support Vector Machine(SVM),Logistic Regression(LR),and the unSupervised Learning Algorithm(un-SLA) of K-Means Clustering(KMC).Moreover,Optical Sensor Information(OSI),Pressure Sensor Information(PSI),and Double-Sensor Information(DSI) are adopted to compare the recognition accuracies.The experiment results demonstrate that the proposed sensors and recognition approaches are feasible and effective.The recognition accuracies obtained using the above ML algorithms and three modes of sensor information are higer than 85 percent for almost all combinations.Moreover,DSI is more accurate when compared to single modal sensor information and the KNN algorithm with a DSI outperforms the other combinations in recognition accuracy.  相似文献   

18.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

19.
基于k-means算法的k值优化的研究与应用   总被引:2,自引:0,他引:2  
k-means算法是经常使用的一种聚类算法,但是易受聚类个数k的影响,其性能主要取决于k值优化,因此对近年来k-means算法的研究现状与进展进行总结。对较有代表性的k值优化的k-means算法,从思想、关键技术等方面进行分析概括,并选用著名数据集对一些典型算法进行了测试,主要从同一个数据集、不同的k值优化情况进行对比分析.上述工作将为聚类分析和数据挖掘的研究提供有益的参考.  相似文献   

20.
一种简单有效的基于密度的聚类分析算法   总被引:1,自引:0,他引:1  
对数据挖掘中基于密度聚类的相关概念和算法进行了讨论,对OPTICS(O rdering Pointers to Iden-tify the C lustering Structure)算法聚类分析的正确性给以了证明。以DBSCAN,OPTICS为基础,提出了一种基于密度的简单有效的聚类算法。新算法主要在ε-邻域查询和种子队列的更新两个方面作了改进,给出了一种简单、效率较高的邻域查询方法-哈希表法,即对整个数据集合或部分数据作网格化处理。测试结果表明新算法能够有效地对大规模数据进行聚类,效率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号