首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
K-means算法是一种常用的聚类算法,但是聚类中心的初始化是其中的一个难点。笔者提出了一个基于层次思想的初始化方法。一般聚类问题均可看作加权聚类,通过层层抽样减少数据量,然后采用自顶向下的方式,从抽样结束层到原始数据层,每层都进行聚类,其中每层初始聚类中心均通过对上层聚类中心进行换算得到,重复该过程直到原始数据层,可得原始数据层的初始聚类中心。模拟数据和真实数据的实验结果均显示基于层次抽样初始化的K-means算法不仅收敛速度快、聚类质量高,而且对噪声不敏感,其性能明显优于现有的相关算法。  相似文献   

2.
给出了K-means算法和层次聚类算法在具体网站用户细分中准确率的比较,在细分网站用户这一类问题中,K-means算法在聚类准确率和处理速度上具有较大的优势,能够满足网站用户细分准确率的基本要求,其聚类准确率达到95%左右,且K-means算法处理速度比较快;层次聚类算法的处理速度较K-means算法慢,且其聚类准确率在处理大量用户数据时低于92%,这对于处理网站用户数据这类信息并不具备优势.  相似文献   

3.
为了解决集中式聚类算法不能处理海量大数据的问题,提出基于Fisher判别确定置信半径的分布式聚类算法.应用网络上各个节点的计算、存储能力,以及网络的带宽,将聚类所需的时间复杂度和空间复杂度平摊到各个节点.通过应用Fisher线性判别找到节点在同一子类数据上的稠密和稀疏分布,从而快速确定聚类的置信半径并指导下一步的聚类过程,使得保持聚类精度的同时能提高分布式聚类的速度.对算法进行了数值模拟,并使用真实数据完成了试验.结果表明,所提出算法相比DFEKM聚类算法,能根据数据分布的不同在聚类结果和聚类速度上达到很好的平衡,这表明该算法具有更好的健壮性.  相似文献   

4.
K-means算法是应用最广泛的聚类算法之一,但存在明显缺陷:对初始值敏感,还需给定类的数目.层次K-means算法提出将多次k取固定值的K-means运算所得到的中心点作为类的代表,并通过对这些中心点进行层次聚类来得到更好的初始聚类中心,然而在中心的融合过程中并没有有效利用类的几何信息.从类的几何特征入手,提出一种基于类的分位数半径的动态K-means算法(QRD K-means).此算法在层次K-means的基础上令每次K-means运算的k值变动起来,且又引入了分位数半径的概念,用样本点到类中心距离的分位数作为类的半径,将样本点间的关系简化为各个类的分位数半径与类中心的关系.通过中心点间距离与分位数半径大小的比较对中心点进行融合形成新类,从而快速给出良好的聚类结果,同时也确定了类的数目.在仿真实验中,通过与不同算法在时间和分类精确度上的比较分析,也证明该方法快速有效.  相似文献   

5.
梁卓灵  元昌安  覃晓 《广西科学》2020,27(6):616-621
为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss (NJW)谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法(Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC),然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。  相似文献   

6.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

7.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

8.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

9.
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性.  相似文献   

10.
为了探究面向汽车主动安全技术功能验证的测试场景的科学构建方法,构建符合真实交通状况的高保真测试场景。以自动紧急制动(autonomous emergency braking, AEB)系统为研究对象,以美国高速公路安全管理局事故数据库中筛选出的AEB系统功能适用的6 639起道路交通事故为研究样本,通过机器学习方法实现了由事故数据到测试场景的科学转换。针对传统聚类算法的缺陷,提出了基于层次聚类和K-means聚类相结合的融合聚类算法,并引入聚类曲线以开展事故数据样本的聚类分析。根据聚类获取的12类典型事故场景,构建了面向AEB系统功能验证的14种测试场景。结果表明:相比于传统的K-means聚类算法,融合聚类算法平均减少了8次迭代次数;聚类结果平均减少3%的波动;实现事故数据样本的科学准确聚类且提升数据聚类效率。所提出的测试场景在实现对现有AEB测试场景有效覆盖的同时,为标准测试场景的进一步扩充提供了有力支撑。  相似文献   

11.
为解决企业客户价值体现问题, 提出一种TFA客户细分改进模型, 以客户发展空间T、 购买频次F和平均购买额A为指标, 充分体现客户的价值和发展空间. 首先, 引入局部密度值ρ和信息熵H, 改进K-means聚类算法, 以优化传统K-means聚类方法初始聚类中心的选取问题;其次, 通过搭建机器学习框架, 对选取人工数据集及真实数据集进行聚类实验, 验证模型的有效性. 实验结果表明, 该模型能有效分类客户, 充分反映客户价值及其发展空间, 并通过改进聚类算法提升了算法效率.  相似文献   

12.
一种改进的K一均值聚类算法   总被引:2,自引:0,他引:2  
为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低.  相似文献   

13.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

14.
K-means算法以硬聚类划分思想被广泛应用于入侵检测系统,这种严格的边界划分方法在对许多新衍生类入侵数据检测时,易出现检测率低、误检率高的情况。同时,当处理复杂网络访问数据时,采用固定的k值不够灵活,也影响检测的准确性。结合三支决策思想,对传统K-means算法进行了改进,提出了基于三支动态阈值K-means聚类的入侵检测算法。该算法通过动态阈值调整,可以优化聚类的数量,在一定程度上消除了固定k值对入侵检测效果的影响。将离群的不确定性网络数据进行分离和延迟判断,通过二次聚类重新划分后再做决策。在KDD Cup99数据集上实验结果表明,当攻击类型逐渐增多、攻击行为更加复杂时,改进后的K-means算法在检测率和误检率上显著优于传统K-means算法。  相似文献   

15.
为了解决多机器人在搜索过程中多任务分配和多机器人利用率问题,提出了一种带有即时拍卖的K-means聚类捆绑式拍卖算法。首先通过K-means聚类算法解决多机器人系统中的多任务捆绑问题,再运用捆绑式拍卖机制把聚类分配给相应的机器人。考虑各聚类内的任务完成情况和各机器人利用情况,相应机器人判断是否产生即时拍卖。仿真证明,该方法在多机器人搜索过程中节省资源且各机器人利用均衡。  相似文献   

16.
为精准有效地预测电商客户粘性,提升经济效果,研究数据挖掘技术在电商客户粘性预测中的应用。利用可变网格的K-means聚类算法,聚类获取电商客户粘性预测相关数据;通过有效性指标优化可变网格K-means聚类算法的聚类数,确定最佳聚类数,提升数据聚类效果;采用技术接受模型,依据聚类获取的数据,建立电商客户粘性预测指标体系;通过模糊层次分析法,结合指标体系,建立电商客户粘性预测模型,获取预测分值。实验结果表明,该模型可有效确定最优聚类数,精准聚类电商客户粘性预测相关数据;所建立的预测指标体系的指标相关性较低,结构较稀疏、较全面。总体说明,该模型可有效预测电商客户粘性。  相似文献   

17.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

18.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

19.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

20.
为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of the squared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号