首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在使用K-Means进行文本聚类的研究中,针对K-Means算法缺点,提出了利用DBSACN算法确定参数K的方法,将基于密度的聚类算法应用于特征选取上,使得K值计算有了一定的确定性,从而提高了聚类质量。这种将多种算法混合运用的方法,为文本聚类算法的设计提供一个新的方向。  相似文献   

2.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度.  相似文献   

3.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

4.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

5.
聚类是对数据对象的集合无指导地进行分组,聚类算法的好坏直接影响聚类的效果。聚类分析应用广泛,既能作为一个独立的工具来进行数据分析,也可以作为其它算法的预处理步骤。本文从经典的k-Means聚类算法出发,分析了它存在的不足,提出了两种改进的k-Means聚类算法,并从理论上分析了这两种算法可以很好的提高聚类的效果。  相似文献   

6.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

7.
基于混合遗传算法的K-Means最优聚类算法   总被引:6,自引:0,他引:6  
针对遗传算法的K-Means聚类算法在遗传过程中容易受到适应度最大染色体的影响,存在过早收敛于局部最优值和遗传算法的局部搜索性能较差的问题,提出了结合混沌优化方法形成的混合遗传算法。仿真实验表明:该方法有效地克服了遗传算法的早熟问题,从而得到最优的聚类中心。  相似文献   

8.
随着大数据时代的到来,大量的高维数据在生活中无处不在.聚类是分析描述数据并按照某种相似性将数据归类的一项技术.传统聚类算法在面对高维数据时,往往无法进行有效的聚类处理.软子空间聚类是通过分配权重,描述样本隶属于不同簇的不确定性来进行聚类,然而,当数据残缺或信息不准时,现有的软子空间聚类的准确度和效率会受到很大的影响.从软子空间聚类面临的问题出发,提出一种改进的软子空间聚类算法;同时针对数据残缺不足的问题,引入迁移学习来削弱数据量不足对聚类分析的影响;通过引入信息熵的概念,用信息熵确定高维数据权重.实验证明,通过结合迁移学习和信息熵,有效地提高了软子空间聚类算法精确度和准确度.  相似文献   

9.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

10.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

11.
基于改进聚类算法的RBF网络及其应用   总被引:1,自引:0,他引:1  
RBF网络可以逼近任意连续非线性函数,且训练速度快,性能好,被广泛应用于过程建模和预测。RBF网络的一个重要因素是隐层节点的选择,隐层节点过多或过少都会影响最终网络的性能。提出一种改进的k-means聚类算法,可以自动确定最优的聚类区数,并且可使最终的聚类中心合理地分布在数据空间中。在应用RBF网络进行建模和预测时,采用该方法确定隐层节点的中心,跟用通常的聚类方法相比,可以大大减小网络规模。仿真和实际应用结果都证明该方法的有效性。  相似文献   

12.
针对传统的以k-means为代表的分割聚类算法认为所有的聚类样本对聚类中心的影响都是相同的这一观点,提出基于样本加权的聚类算法,并采用实际数据集验证算法的有效性.实验表明,该算法比传统的k-means聚类算法具有更高的精确度.  相似文献   

13.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

14.
随着大数据时代的到来,如何快速、准确地从海量数据中挖掘有用的信息成为一个极其关键的问题。随着样本数据维度和数量的增加,导致K-Means聚类算法的计算成本急剧增加。因此,一种新颖的加速精确K-Means聚类算法近期被用来降低计算成本,称为“Ball K-Means”。尽管Ball K-Means降低了计算成本,但是该算法和K-Means算法都缺乏全局搜索能力。因此,本文从全局搜索能力和计算成本两个因素考虑,通过在Ball K-Means算法中引入一种防止聚类过程过早收敛的探索向量,提出一种针对高维度、大样本数据的基于探索向量的Ball K-Means聚类算法,称为“Ball XK-Means”。实验结果表明,在高维度和大样本数据下,本文提出的算法不仅比Ball K-Means和K-Means算法能够获更稳定和更精确的聚类结果,而且比K-Means和XK-Means算法有更低的计算成本和更高的效率。  相似文献   

15.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

16.
降维作为聚类问题的关键预处理步骤被用来抽取高维数据潜在的低维子空间结构.面对高维数据聚类,传统的策略是首先采用降维技术提取高维数据嵌入在低维空间的潜在数据结构,然后利用一个聚类算法完成数据聚类.然而,这种两阶段优化策略的聚类性能往往不如直接优化统一的目标函数.因此,在模糊聚类算法的基础上,本文提出了一种稀疏约束的嵌入式模糊均值聚类算法(EFSC),该方法结合线性正交投影技术在对高维数据降维的同时完成聚类.EFSC模型对模糊矩阵施加了稀疏约束来提升聚类性能.理论分析与实验结果证明了本文提出的EFSC算法的有效性.  相似文献   

17.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

18.
基于k-means聚类算法的试卷成绩分析研究   总被引:1,自引:0,他引:1  
研究了k-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.  相似文献   

19.
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

20.
针对综合了基于密度和网格的CLIQUE聚类算法,提出了一种改进的方法,并给出了简单的有效性验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号