首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

2.
为解决模糊层次聚类算法无法收敛的问题,提出一种改进的模糊层次聚类算法.算法在分群前先进行数据处理,将特征向量相同的群合并成一个新的群,再使用模糊层次聚类算法分群,最后使用K-means算法将类簇收敛为想要的数量.实验结果表明,本算法具有较好的稳定性和分群效果,聚类质量高.  相似文献   

3.
王娟 《科技信息》2012,(25):168+229-168,229
聚类算法作为一种重要的数据挖掘的方法,能找到样本中相对集中的区域。本文分析了一些常用聚类算法以及局限性,并且针对K-means算法中初始点的选择,讨论了一种改进的K-means算法的实现过程,以期得到比较理想的聚类效果。  相似文献   

4.
基于信息熵改进的 K-means 动态聚类算法   总被引:1,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

5.
K-means聚类算法是近年来数据挖掘学科的一个研究热点和重点,该算法是基于划分的聚类分析算法.目前这种算法在聚类分析中得到了广泛应用。本文将介绍K-means聚类算法的主要思想,及其优缺点。针对该算法经常陷入局部最优,以及对孤立点敏感等缺点,提出了一种基于模拟退火算法的方法对其进行优化,可以有效地防止该算法陷入局部最优的情况。  相似文献   

6.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

7.
文本聚类算法的比较   总被引:3,自引:0,他引:3  
聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。  相似文献   

8.
一种基于余弦因子改进的混合聚类算法   总被引:1,自引:0,他引:1  
为了解决传统的K-means聚类算法全局优化性差,容易陷入局部最优的问题,用具有全局自适应优化特点的遗传算法与K-means算法结合来改善聚类效果.在此基础上提出了基于余弦因子改进的混合聚类算法(SGKM),在交叉和变异操作时用基因余弦因子(GCOS)进行个体控制,确保差的个体不会被引入下一代,并采用交叉和变异概率的自适应控制,结合了K-means算法的高效局部搜索和遗传算法的全局优化能力.实验结果表明,与其他基于K-means算法改进的聚类算法相比,SGKM算法能获得更小的簇内距和更大的簇间距,且数据对象的分类准确率有一定的提高.应用SGKM算法进行聚类不易受到不良个体的干扰,可以有效地改善聚类效果.  相似文献   

9.
基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.  相似文献   

10.
K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受孤立点影响的问题,能产生高质量的聚类结果。  相似文献   

11.
针对当前数据挖掘中对数值型数据聚类方法的不足,提出了基于特征点选择的聚类算法(clustering algorithm based on Feature Point Selection,CFPS)。CFPS算法可以克服需要输入聚类数量的缺陷, 算法本身可以找到簇的最佳数量,使聚类的精度和效率得到大大提高。实验结果表明该方法对数值型数据聚类方法具有借鉴意义和深入研究的价值。  相似文献   

12.
应用映射簇的概念来明确多维数据中簇与维度的关系,将聚类问题转化为映射簇问题;将采样技术与PAM相结合,根据曼哈坦距离计算数据对象之间和簇之间的距离实现聚类分析.此外,给出了相应的具体算法,并将该算法与k-中心点算法进行了试验比较.试验结果证明了该算法的有效性.  相似文献   

13.
考虑对象方向关系的密度聚类算法   总被引:2,自引:0,他引:2  
 聚类分析是数据挖掘的一个重要研究方向.为了在大规模空间数据库中发现任意形状的聚类,Martin Ester等提出基于密度的聚类算法DBSCAN.针对DBSCAN处理聚类边界对象的不足,提出了聚类时考虑对象方向关系的改进算法,实验表明,改进算法在不改变时间、空间复杂度的情况下能得到更好的聚类结果.  相似文献   

14.
本文提出了一种基于遗传算法,结合网站的拓扑结构,对网站用户进行聚类分析的模型,阐述了遗传算法在优化过程中染色体编码、遗传算子的设计等问题.实验证明能解决常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题,是一种有实用价值的方法.  相似文献   

15.
营养作为人类生活的必要前提,大量患有某种疾病患者或由于工作职业原因对不同营养成分需求各不一致,发现不同食物种类营养成分及含量间的关系具有较强的应用价值。由于各类食物类别所含食物数量不同,针对Apriori算法通过支持度和置信度来衡量关联规则的特点,为克服各类食物数量不一致容易对挖掘结果产生不良影响,设计了一种通过k-means与Apriori算法对多种食物的营养成分及含量的挖掘与分析的方法。首先根据不同食物营养成分含量采用k-means聚类算法进行聚类,将食物数据集划分出了多个互不相交的"簇",再在各"簇"内通过Apriori算法实现食物营养成分含量之间的关联规则挖掘,其结果表明使用该方法经过聚类后的同一簇内食物营养成分关联程度明显优于直接在数据集中使用Apriori算法进行挖掘,为各类人群的合理膳食及饮食健康提供了重要的参考依据。  相似文献   

16.
针对k-means算法对初始值敏感、易陷入局部极小值等缺点,结合遗传算法的思想,提出了一种基于遗传算法和k-means算法的混合聚类方法,为了测试该聚类算法的性能,用k-means 算法和改进的算法进行了1组实验,并对2种算法的聚类结果进行比较,实验结果表明算法能够有效地解决聚类问题.  相似文献   

17.
本文讨论了基于Web使用挖掘的Web个性化技术,针对个性化系统的功能及特点,论述了相关数据采集、数据预处理技术和模式发现及其在个性化服务中的应用,提出了一个关于个性化系统的实时聚类算法.实验结果表明,该算法不仅有效,而且具有较高的准确度,能适应用户短期浏览的变化.  相似文献   

18.
以k-means算法为基础,对入侵检测技术和聚类分析技术进行了研究和分析,指出了传统k-means算法的不足,给出了针对性的改进方法.采用KDDCUP99数据集作为源数据集,对k-means以及改进后的算法进行了仿真实验,实验结果表明,改进后的k-means算法在入侵检测系统中,能够有效地提高入侵检测系统的检测率,降低误报率.  相似文献   

19.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号