首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可以有效减少结点间的数据移动次数,并具有良好的可扩展性.通过该算法在单机环境和集群环境的对比测试,说明该算法适用于大规模数据环境,且算法性能与数据规模成正比,集群环境较单机环境也具有很大的性能提高.  相似文献   

2.
为了提高智能推荐系统的性能,采用狼群优化的K-means聚类挖掘实现数据分类,通过协同过滤完成智能推荐。为了提高推荐效率,引入Spark平台多节点完成聚类和推荐。建立用户和资源的K-means聚类模型,采用狼群优化算法对初始类别中心点进行优化,以提高聚类准确度,根据用户和资源的类别属性获得用户-资源评分数据,最后建立协同过滤智能推荐模型。根据推荐效率要求,将推荐模型部署至Spark平台,实现聚类和智能推荐的分布式运算。实验证明,通过合理设置聚类中心点数目,结合Spark平台多节点运算,与常用推荐算法对比,所提算法可以获得更准确的推荐性能,在大规模数据的智能推荐系统中更能满足实时性要求,智能推荐效率高。  相似文献   

3.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

4.
K均值聚类是医学图像分割中最常用的方法之一,但K均值(K-means)聚类算法一个固有缺陷,在于若初始中心点的选取有重复的中心点,则聚类结果将含有空簇而使得聚类结果没有意义,进而影响图像分割效果。针对这一缺陷,首先提出在初始选点过程中进行聚类中心优化,避免产生重复的解决办法——初始点优化K均值算法(Initialization Optimized K-means,IOK-means),继而将初始选点数据域约束到图像直方图峰值集,进一步改善聚类效果,得到全局优化K均值聚类算法(Global Optimized K-means,GOK-means)。将GOK-means应用在脑部医学图像分割的实验表明:GOK-means能够将脑部灰质、白质及骨骼部分清晰地分割,与传统K均值算法IOKmeans相比,GOK-means的初始化聚类中心成功率达到100%,聚类总体均方差降低了54.9%,验证了GOK-means的有效性。  相似文献   

5.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

6.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

7.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

8.
聚类集成作为数据挖掘的重要应用工具,得到了广泛的认可和研究.本文在投票法的基础上提出一种新的软聚类投票(VMSC)算法.算法首先求取平均隶属度矩阵,然后进行迭代优化.该算法能够消除噪声点影响,具有很好的稳定性.Spark云计算平台能够高效处理大数据.为了提出的算法处理大数据,在Spark云计算平台上实现并行的VMSC算法.VMSC算法实验用12组UCI数据集进行验证,并与sCSPA、sMCLAs HGBF及SVCE等软聚类算法进行对比.结果表明,VMSC算法对软聚类算法具有较好的集成效果.在Spark云计算平台上对VMSC算法并行实现.实验表明,该算法具有较理想的并行效果,能够有效处理大数据.  相似文献   

9.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

10.
一种改进的K一均值聚类算法   总被引:2,自引:0,他引:2  
为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号