首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

2.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

3.
针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。  相似文献   

4.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

5.
为推进骨干教师教学激励计划的实施,开发了教学过程考核系统.该系统详细记录了教学过程的各个环节,以《计算机程序设计》课程为例,用K-means算法聚类统计该课程过程考核成绩时,针对随机选取初始聚类中心造成聚类精度和稳定性降低等敏感问题,提出了动态选取初始聚类中心的改进算法ICS-means.改进后的聚类方法减少了K-means算法对初值的依赖性,具有良好的稳定性,可对学生的学习效果做及时准确的反馈,促进教与学.  相似文献   

6.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

7.
针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。  相似文献   

8.
聚类分析是一种重要的数据挖掘方法,K-means算法是其中最常用的基于划分的方法。本文提出了一种基于初始均值点离散化的改进K-means算法。改进的算法在选取初始均值点时,尽量使初始均值点的分布离散化,解决了传统算法中随机选取初始均值点所造成的一些问题。同时,为了得到更高质量的聚类结果,本文进行了数据集中的离群点检测和自动确定参数k的最佳取值两方面的前期处理工作。实验证明,改进后的算法明显优于传统算法。  相似文献   

9.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

10.
基于2d-距离改进的K-means聚类算法研究   总被引:1,自引:0,他引:1  
为了解决原始K-means算法随机选取聚类中心对聚类结果产生较大影响的不足和孤立点的存在对聚类精度的破坏,以及两者之间的相互牵制性,采用基于2d-距离的DKC值来对原始样本数据集进行预处理以分辨孤立点,同时确定初始的聚类中心,达到消除两者相互影响的效果,使得聚类中心相对稳定,改进后的算法较原始的算法在准确度上得到了改进。  相似文献   

11.
k-prototypes和模糊k-prototypes是处理数值属性和分类属性混合数据主要的聚类算法。但这两种聚类算法不足之处是对初值有明显的依赖。对初值选取方法进行了分析和研究,提出一种新的改进方法,可在一定程度上减少随机性。实际数据集仿真结果表明改进算法有更高的稳定性和较强的伸缩性。  相似文献   

12.
一种改进的基于遗传算法的K均值聚类算法   总被引:2,自引:0,他引:2  
结合遗传算法和K均值聚类算法的优点,提出一种改进的基于遗传算法的K均值聚类算法.将遗传算法的编码方法、初始化、适应度函数、选择、交叉和变异等较好地应用于聚类问题,不仅解决了K均值聚类算法中K值难以确定、对初始值敏感以及遗传算法存在收敛性差和容易早熟的缺点,而且实现了聚类中心的优化选择、K值的自动学习和基因的自适应变异等...  相似文献   

13.
传统-means聚类算法的性能依赖于初始聚类中心的选择.本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的K个节点作为聚类的初始聚类中心,然后进行聚类迭代过程.实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量.  相似文献   

14.
黄欣  余思东  赵志刚 《广西科学》2020,27(1):104-109
针对车载自组织网(Vehicular Ad Hoc Networks,VANETs)拓扑结构经常变化导致通信链路容易断裂而通信质量不可靠的问题,将人工蜂与K-means混合算法应用在VANETs中。在成簇阶段,该混合算法利用人工蜂算法较强的全局搜索能力确定初始聚类中心,代替传统的K-means对初始聚类中心的选择,这样就消除了K-means对随机初始聚类中心的依赖。在簇头选取阶段,类内具有最小的速度方差以及到其他节点最小平均距离的车辆节点被选择为簇头。在簇的维护阶段,当最优节点即簇头有变化时,次优节点被选为临时簇头,直至更新为最优节点的簇头信息。为测试该混合算法的性能,将其和PSO与K-means混合算法、经典K-means算法进行实验对比,结果表明,该混合算法能够更加稳定VANETs通信链路,具有更高成簇质量和更高通信质量。  相似文献   

15.
针对k-means算法对初始值敏感、易陷入局部极小值等缺点,结合遗传算法的思想,提出了一种基于遗传算法和k-means算法的混合聚类方法,为了测试该聚类算法的性能,用k-means 算法和改进的算法进行了1组实验,并对2种算法的聚类结果进行比较,实验结果表明算法能够有效地解决聚类问题.  相似文献   

16.
针对信息安全风险评估训练数据少、求解最优值困难等问题,提出了基于互信息和K-means聚类的信息安全风险评估方法.用模糊评价法量化风险指标,通过互信息计算风险因素与风险等级之间的依赖性,找出风险度在每个等级的最优点作为K-means初始中心点,用K-means算法对数据分类.该方法实现简单且克服了 K-means对初始...  相似文献   

17.
针对边界模糊和对比度低的口腔CT图像中牙齿目标区域提取难的问题,提出了一种基于高斯混合模型与K-均值的改进聚类分割算法.该算法首先通过各向异性滤波对图像预处理,实现去噪平滑的同时增强图像的细节;然后利用K-均值完成初始划分,并根据分类后的像素值给出EM算法迭代的初始值,加快算法迭代到最优解,从而大大降低算法迭代次数,有效解决EM算法求解参数时随机选取初值点易导致GMM陷入局部最优解的问题,进而使分割区域完整;最后利用EM算法学习GMM,完成ML分割.实验结果表明:改进方法降低了计算复杂度,对噪声具有较强的鲁棒性,可获得更为理想的分割结果.  相似文献   

18.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法.结合距离优化法和密度法,构建一种数据集密度度量方法.选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析.结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小.可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号