首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题, 提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.  相似文献   

2.
K-means算法是聚类方法中常用的一种划分方法.基于扩展划分的思想,提出了一种基于扩展的K-means聚类算法(EK-means),在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K-means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况.该算法使用了基于距离的技术来处理孤立点,引进了一种基于扩展的方法进行聚类.实验表明该算法可扩展性好,能够很好的识别出孤立点或噪声,并且有很好的精度.  相似文献   

3.
针对K-means聚类算法对初始聚类中心敏感问题,提出1种结合方差与误差平方和的优化算法.首先,该算法基于方差和距离选取k个位于不同区域且样本点相对集中的集合.然后,分别选取使这k个样本集合误差平方和最小的数据作为k个初始聚类中心.利用改进算法与其他算法将UCI数据库中所选取的数据集进行聚类划分,对比不同算法下的聚类结...  相似文献   

4.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

5.
针对谱聚类算法中K-means处理无标识软件度量元数据易陷入局部最优的问题, 提出一种新的混沌免疫聚类算法. 该方法在免疫克隆选择算法的框架下, 设计抗体亲和度计算方法用于免疫克隆聚类中心的评价, 并给出分层混沌变异算子, 进一步提高了无标识软件度量元数据的预测性能. 仿真实验验证了算法的有效性.  相似文献   

6.
基于动态隧道系统的K-means聚类算法研究   总被引:1,自引:0,他引:1  
针对K-means聚类算法易陷入局部极小的问题,利用动态隧道算法在解决全局最优化问题中的有效性,将算法中的动态隧道过程引入到K-means聚类算法中,提出了一种基于动态隧道算法的K-means聚类算法.该算法在K-means聚类算法寻优得到的局部极小值基础上,利用动态隧道过程寻找更小的能量盆地,再将其值提交给K-means聚类算法进行迭代寻优,重复该过程,直到找到全局最小值.理论分析和仿真实验证明,该算法的聚类效果要优于K-means聚类算法.  相似文献   

7.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

8.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

9.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

10.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

11.
一种改进的K一均值聚类算法   总被引:2,自引:0,他引:2  
为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低.  相似文献   

12.
为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of the squared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。  相似文献   

13.
一种基于余弦因子改进的混合聚类算法   总被引:1,自引:0,他引:1  
为了解决传统的K-means聚类算法全局优化性差,容易陷入局部最优的问题,用具有全局自适应优化特点的遗传算法与K-means算法结合来改善聚类效果.在此基础上提出了基于余弦因子改进的混合聚类算法(SGKM),在交叉和变异操作时用基因余弦因子(GCOS)进行个体控制,确保差的个体不会被引入下一代,并采用交叉和变异概率的自适应控制,结合了K-means算法的高效局部搜索和遗传算法的全局优化能力.实验结果表明,与其他基于K-means算法改进的聚类算法相比,SGKM算法能获得更小的簇内距和更大的簇间距,且数据对象的分类准确率有一定的提高.应用SGKM算法进行聚类不易受到不良个体的干扰,可以有效地改善聚类效果.  相似文献   

14.
传统的K-means算法通过不断的重复计算来完成聚类,聚类中心点的不断变化产生的一些动态变化信息将对聚类产生一定的干扰,且当数据量过大时,算法的时间开销和系统的I/O开销将大大增加,这严重影响了算法的性能。为此,论文提出一种改进的K-means动态聚类算法,该算法充分考虑了K-means聚类过程中信息的动态变化,通过为算法的终止条件设定标准值,来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,使算法达到更准确更高效的聚类效果。实验结果表明,当数据量较大时,相比于传统的K-means算法,改进后的K-means算法较在准确率和执行效率上都有较大的提升。
  相似文献   

15.
给出了K-means算法和层次聚类算法在具体网站用户细分中准确率的比较,在细分网站用户这一类问题中,K-means算法在聚类准确率和处理速度上具有较大的优势,能够满足网站用户细分准确率的基本要求,其聚类准确率达到95%左右,且K-means算法处理速度比较快;层次聚类算法的处理速度较K-means算法慢,且其聚类准确率在处理大量用户数据时低于92%,这对于处理网站用户数据这类信息并不具备优势.  相似文献   

16.
基于遗传算法的模糊c-均值聚类算法   总被引:5,自引:0,他引:5  
基于误差平方和准则的模糊c-均值算法(FCM)是一种典型的动态聚类算法,其求解结果通常是局部最优解;当模糊集合之间的并、交、包含运算采用传统定义时,在模糊c-均值聚类结果中还会存在无意义的聚类集.研究表明采用遗传算法进行模糊c-均值聚类(Fuzzy c-means algorithm over genetic algorithm,GFCM)时,不仅能够消除无意义的聚类集,而且还在一定程度上避免模糊c-均值算法收敛到局部最优解,为此设计编码、选择、配对交叉、变异等步骤.测试数据实验表明采用GFCM算法的结果优于FCM算法.  相似文献   

17.
传统的K-means算法通过不断的重复计算来完成聚类,聚类中心点的不断变化产生的一些动态变化信息将对聚类产生一定的干扰,且当数据量过大时,算法的时间开销和系统的I/O开销将大大增加,这严重影响了算法的性能。为此,论文提出一种改进的K-means动态聚类算法,该算法充分考虑了K-means聚类过程中信息的动态变化,通过为算法的终止条件设定标准值,来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,使算法达到更准确更高效的聚类效果。实验结果表明,当数据量较大时,相比于传统的K-means算法,改进后的K-means算法在准确率和执行效率上都有较大的提升。  相似文献   

18.
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性.  相似文献   

19.
将K-means聚类算法在对事物分类中的优点用于判断变压器的故障中.并针对K-means聚类法在给定初始聚类中心不良的问题上进行改进.将改进的K-means聚类算法与三比值法相结合,以此来诊断变压器的多种常见故障.应用MATLAB分别对改进前后的K-means算法进行仿真,并将改进后的仿真结果同改进前K-means聚类算法的结果进行对比分析.结果表明,改进的K-means聚类算法不但能精确、有效地对变压器故障进行诊断,并且改进的K-means聚类法使仿真结果更加准确可靠.  相似文献   

20.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号