期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《济南大学学报(自然科学版)》2017,(1)

针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。相似文献

2.

一种基于复杂网络属性值的K-means聚类算法

董俊任家东卢海涛《燕山大学学报》2012,36(4):343-347

传统-means聚类算法的性能依赖于初始聚类中心的选择.本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的K个节点作为聚类的初始聚类中心,然后进行聚类迭代过程.实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量. 相似文献

3.

基于改进的K-means和BP-Adaboost的寿险客户流失预测算法研究

闫春张馨予《山东科技大学学报(自然科学版)》2022,(1):54-65

针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系.提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则.运用传统的K-means算法、不同离群点监测阈值下的改进K-means算法进行... 相似文献

4.

K-means算法聚类中心选取

张朝郭秀娟张坤鹏《吉林大学学报(信息科学版)》2019,37(4):437-441

传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。相似文献

5.

基于影响空间的初始中心点优化K-means聚类算法

《太原科技大学学报》2016,(5)

针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。相似文献

6.

改进萤火虫算法与K-means算法结合的配电网负荷聚类特性分析

王继东顾志成葛磊蛟赵长伟贾东强《天津大学学报(自然科学与工程技术版)》2023,(2):137-147

负荷聚类特性分析是实现配电网的定制电力、高品质供电、高可靠性供电的重要基础．然而现有的Kmeans聚类分析方法，受限于数据样本集和聚类初始中心的选取等，会出现因初始中心不同造成聚类结果差异大的问题．为此，针对配电网负荷数据特点，提出一种基于改进萤火虫算法和K-means算法结合的配电网负荷聚类特性分析方法．利用萤火虫优化算法全局搜索能力强的优势，考虑类内相似度和类间差异度，寻优K-means算法初始中心，使聚类结果的聚类有效性指标取得最小值；进一步针对萤火虫算法在处理负荷数据时的弱点，通过密度法为萤火虫算法加入优秀初代个体，改进吸引公式以及个体间概率吸引移动的方式优化迭代过程中的个体移动方式，加快萤火虫算法前期收敛速度，并实现后期稳定收敛，算法更快地接近极值，计算速度更快．算例验证了本文所提算法的聚类有效性，并针对某配电台区电力负荷数据，寻得K-means算法最优初始中心，使得聚类结果的戴维森堡丁指标(Davies-Bouldinindex,DBI)最小，负荷聚类结果类内差异小，类间差异大，最终聚类中心的特征代表性强，为负荷类型划分、聚类特性分析提供重要依据，为需求侧差异化电力服务定制... 相似文献

7.

基于孤立点自适应的K-means算法

杨莉云颜远海《河南科学》2019,37(4):507-513

孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好. 相似文献

8.

基于密度的改进聚类算法比较

郭文娟《甘肃科技》2017,33(1)

针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。相似文献

9.

PCA-KDKM算法及其在微博舆情中的应用

《山东科技大学学报(自然科学版)》2018,(6)

针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。相似文献

10.

基于离群点检测的K-means算法

冷泳林张清辰赵亮鲁富宇《锦州师范学院学报(自然科学版)》2014,(1):34-38,48

K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。相似文献

11.

基于K均值算法的数据聚类和图像分割研究

王军敏李艳《平顶山学院学报》2014,(2):43-45

K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能. 相似文献

12.

基于改进K-均值聚类的图像分割算法研究 总被引：3，自引：0，他引：3

李翠冯冬青《郑州大学学报(自然科学版)》2011,(1):109-113

为了实现彩色图像的准确分割,研究了在HLS颜色空间中基于优化初始中心的加权K-均值彩色图像聚类算法.首先对大样本的目标颜色进行数理统计,获取优化的初始聚类中心,从而实现准确分类和避免K-均值容易陷入局部最优的问题;然后在HLS颜色空间中引入加权欧氏距离来度量对象间的相关性,通过调整系数使对象不同的颜色属性内在特征得以充分利用.实验证明,该算法在保持K-均值聚类简洁、收敛速度快的同时能产生更好的聚类效果,实现彩色图像的快速准确分割. 相似文献

13.

基于信息熵改进的 K-means 动态聚类算法 总被引：3，自引：2，他引：1

杨玉梅《重庆邮电大学学报(自然科学版)》2016,28(2):254-259

初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升. 相似文献

14.

基于马氏距离的K均值聚类算法的入侵检测

易倩滕少华张巍《江西师范大学学报(自然科学版)》2012,(3):284-287

经典的 K 均值聚类算法是基于欧式距离的,它只适用于球形结构的聚类,而且在处理数据时不考虑变量之间的相关性和各变量的重要性差异.针对以上问题改进了 K 均值聚类算法,将马氏距离与 K 均值相结合,并在目标函数中增加变量权重因子和协方差矩阵调节因子,利用马氏距离优点有效地解决了 K 均值聚类算法的缺陷,最后通过实验证实了该方法的可行性和有效性相似文献

15.

基于马氏距离的模糊聚类优化算法——KM-FCM

下载免费PDF全文

祖志文李秦《河北科技大学学报》2018,39(2):159-165

为了解决以欧氏距离作为相似性准则的传统模糊聚类算法对多维数据处理不利的问题,采用马氏距离代替欧氏距离,对基于马氏距离的模糊聚类算法进行优化研究,以增强基于马氏距离的模糊聚类算法的聚类效果和能力。通过构造启发式搜索与k-means算法结合的初始优化方法,利用可以自动调节最佳聚类数的有效性函数,提出了一种优化算法KM-FCM,并将此新算法与FCM,FCM-M,M-FCM聚类算法在3个标准数据集上进行了实验。结果表明,KM-FCM算法有效,聚类精度比FCM,FCM-M,M-FCM高,对高维数据聚类识别能力强,具有全局优化作用,并且聚类个数无需提前设定。新算法可为基于马氏距离的模糊聚类算法的优化提供参考。相似文献

16.

联合多尺度块匹配的非局部均值去噪算法

下载免费PDF全文

陈浩宇许光宇《海南师范大学学报(自然科学版)》2024,37(1):46-55

针对非局部均值（Non-Local Means, NLM）图像去噪算法易产生伪影与平滑细节的问题,提出一种联合多尺度图像块匹配的像素相似性测度,提高NLM算法去噪性能。首先,研究与分析了加权欧氏距离与欧氏距离两种相似性度量以及图像块尺寸设置对NLM算法的影响。其次,通过引入图像特征信息并利用K-means聚类方法将图像划分为平坦区域和包含边缘与纹理的结构区域,对每个类别中的像素点,联合两种尺度图像块匹配计算像素的平滑权重。最后,优化了算法的滤波参数。实验结果表明,提出的算法在噪声去除与细节保持方面明显优于经典的NLM算法,相比其他改进的NLM算法也有优势。相似文献

17.

基于样本稀疏化高斯过程的发酵过程软测量建模方法

何坤赵利强王建林于涛《北京化工大学学报(自然科学版)》2014,41(3):108

提出了一种基于样本稀疏化高斯过程(GP)的发酵过程软测量建模方法。该方法将聚类和灰色关联度分析相融合，综合考虑样本点间欧式距离和各个特征向量对样本点间相似度的影响，通过剔除相似度比较大的样本点，实现训练样本集的稀疏化，降低了模型的计算复杂度。利用基于样本稀疏化的高斯过程构建青霉素发酵过程的软测量模型，同时得到青霉素浓度的预估值和表征预估值的不确定度，实验结果表明，本文所提方法与标准GP方法相比，在保证模型预测精度的前提下，减少了模型的训练时间。相似文献

18.

A dynamic fuzzy clustering method based on genetic algorithm

ZHENG Yan ZHOU Chunguang LIANG Yanchun GUO Dongwei 《自然科学进展(英文版)》2003,13(12):932-935

A dynamic fuzzy clustering method is presented based on the genetic algorithm. By calculating the fuzzy dissimilarity between samples the essential associations among samples are modeled factually. The fuzzy dissimilarity between two samples is mapped into their Euclidean distance, that is, the high dimensional samples are mapped into the two-dimensional plane. The mapping is optimized globally by the genetic algorithm, which adjusts the coordinates of each sample, and thus the Euclidean distance, to approximate to the fuzzy dissimilarity between samples gradually. A key advantage of the proposed method is that the clustering is independent of the space distribution of input samples, which improves the flexibility and visualization. This method possesses characteristics of a faster convergence rate and more exact clustering than some typical clustering algorithms. Simulated experiments show the feasibility and availability of the proposed method. 相似文献

19.

面向稀疏数据集的聚类算法

赵玉明舒红平魏培阳刘魁《科学技术与工程》2020,20(2):659-663

在聚类过程中数据可能呈现稀疏性,如果仍用传统的欧式距离作为聚类指标,则聚类的质量和效率将会受到严重的影响。受到信息论中KL(Kullback-Leibler)散度的启发,采用基于KL散度的相似性度量方法,先描述数据的整体分布,进而对数据进行聚类。研究结果表明,最后通过实验验证本算法的有效性。这种方法可以利用簇中元素提供的信息来度量不同簇之间的相互关系,克传统欧式距离的缺点,提升算法准确度。相似文献