首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖.  相似文献   

2.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

3.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

4.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

5.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

6.
K-means初始聚类中心优化算法研究   总被引:2,自引:1,他引:1  
由于K-means算法对初始中心的依赖性而导致聚类结果可能陷入局部极小,而采用密度函数法的多中心 聚类并结合小类合并运算的聚类结果明显优于K-means的聚类结果。该算法的每一次迭代都是倾向于发现超球 面簇,尤其对于延伸状的不规则簇具有良好的聚类能力。  相似文献   

7.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

8.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

9.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

10.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

11.
通过将半监督学习的思想引入到模糊C-均值聚类方法中,提出一种基于半监督的模糊C-均值聚类算法,有效解决了模糊C-均值聚类算法随机选取初始聚类中心导致聚类结果局部收敛的问题,能客观获取最佳聚类数目和初始聚类中心.实验结果表明,与传统模糊C-均值聚类算法相比,基于半监督的模糊C-均值算法在一定程度上减少了迭代次数,降低了对初始聚类中心的依赖性.  相似文献   

12.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

13.
协议聚类是协议逆向工程技术中非常重要的一步,针对二进制协议更加透明且满足的协议种类更加广泛的特点,提出了一种基于基因和蛋白质生物信息的二进制协议聚类方法,能够从原始序列角度对大量协议直接进行聚类.本文方法首先将原始二进制报文转化成四进制基因形式,使用快速聚类方法计算碱基两两组合的k-seed值生成距离矩阵,并用UPGMA计算最小距离生成树得到初始分簇;其次,将每一簇四进制协议报文转化成十六进制蛋白质链,得到序列更有语义的方式并采用基于改进mBed算法的聚类方法将其进行高精度聚类.通过对已知和未知协议单纯和混合场景下的测试表明,该方法能够对二进制协议实现高效并且高准确率的聚类,具有较高的应用价值.  相似文献   

14.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

15.
针对模糊C均值聚类算法容易陷入局部极值和对初始值敏感的缺点,提出了一种粒子群优化模糊聚类算法,该算法利用粒子群优化算法寻找最优聚类中心,运用WFCM进行加权模糊聚类,能较大提高聚类的有效性;将该算法应用于煤气鼓风机组振动故障诊断中进行诊断仿真,结果表明:该算法较大提高了故障诊断的正确率。  相似文献   

16.
基于快速全局模糊C均值聚类算法的脑瘤图像分割   总被引:1,自引:0,他引:1  
针对经典模糊C均值聚类算法对初始聚类中心过于敏感的缺陷,提出一种快速全局模糊C均值聚类算法.该算法采用分阶段动态递增的方式选取初始聚类中心,避免了随机化设置导致的聚类结果稳定性差问题.实验分析表明,改进后的模糊C均值聚类算法在脑瘤图像分割中的聚类效果较好,多个数据集的聚类准确率也表明,快速全局模糊C均值算法的聚类稳定性明显提升.  相似文献   

17.
Though K-means is very popular for general clustering, its performance which generally converges to numerous local minima depends highly on initial cluster centers. In this paper a novel initialization scheme to select initial cluster centers for K-means clustering is proposed. This algorithm is based on reverse nearest neighbor (RNN) search which retrieves all points in a given data set whose nearest neighbor is a given query point. The initial cluster centers computed using this methodology are found to be very close to the desired cluster centers for iterative clustering algorithms. This procedure is applicable to clustering algorithms for continuous data. The application of proposed algorithm to K-means clustering algorithm is demonstrated. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method. Foundation item: Supported by the National Natural Science Foundation of China (60503020, 60503033, 60703086), the Natural Science Foundation of Jiangsu Province (BK2006094), the Opening Foundation of Jiangsu Key Laboratory of Computer Information Processing Technology in Soochow University (KJS0714) and the Research Foundation of Nanjing University of Posts and Telecommunications (NY207052, NY207082)  相似文献   

18.
FCM算法应用于文本聚类时,由于初始聚类中心点选择的随机性,以及容易陷入局部最优的问题,导致文本聚类效果较差.为了提高FCM算法的聚类精度,提出了采用黑洞算法寻找FCM最优初始聚类中心的方法.黑洞算法是一种启发式优化方法,在FCM初始聚类中心寻优的过程中,始终保持黑洞为全局最优解,最终发现FCM的最优初始聚类中心.实验结果表明,基于黑洞算法的FCM文本聚类方法可以解决FCM算法对初始中心点敏感和容易陷入局部最优的问题,聚类精度明显提高.  相似文献   

19.
一种改进的SOFM聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对常规SOFM(self-organizing feature map)无监督的神经网络,提出了一种改进的自组织特征映射SOFM神经网络算法。在常规SOFM网络数据聚类算法基础上,分析了其在实际应用中存在的不足,对初始权值设定以及邻域范围选择等方面进行了算法的优化和改进,进而提高了SOFM神经网络聚类算法的正确率、收敛速度和实时性,并利用仿真实验进一步对提出的改进算法进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号