期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谢娟英蒋帅王春霞张琰谢维信《陕西师范大学学报(自然科学版)》2010,(2)

将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越. 相似文献

2.

一种改进的数据流聚类方法

耿德志《山西师范大学学报：自然科学版》2014,(3):22-25

针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题. 相似文献

3.

K-均值算法中聚类个数优化问题研究 总被引：6，自引：1，他引：5

韩凌波《四川理工学院学报(自然科学版)》2012,(2):77-80

在传统的K-均值聚类算法中,聚类数K必须事先给定,然而,实际中K值很难被精确的确定,K值是否合理直接影响着K-均值算法的好坏。针对这个缺点,提出一种优化聚类数算法,根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则,构建了距离评价函数F(S,K)作为最佳聚类数的检验函数,建立了相应的数学模型,并通过仿真实验进一步验证了新算法的有效性。相似文献

4.

一种整合粒子群优化和K-均值的数据聚类算法

徐辉李石君《山西大学学报(自然科学版)》2011,34(4):518-523

针对K-均值聚类算法存在的不足,提出了一种新的整合粒子群优化算法(PSO)和K-均值算法的聚类算法.在新算法中,首先结合使用粒子群优化算法和K-均值算法搜索全局最优解的位置,然后再用K-均值算法在全局最优解附近的局部空间内快速寻找最优聚类中心.通过对4个数据集的实验测试,将此算法与K-均值算法、基于粒子群的K-均值算法进行了比较.实验结果表明,新算法的聚类质量比后两个算法更优. 相似文献

5.

一种新的密度加权粗糙K-均值聚类算法 总被引：1，自引：0，他引：1

谢娟英张琰谢维信高新波《山东大学学报(理学版)》2010,45(7):1-6

为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。相似文献

6.

基于磁盘的K-均值算法研究

徐向阳司智勇《河南科学》2007,25(4):644-647

聚类是当今数据挖掘领域中最为流行的方法之一,已广泛应用于统计领域、数据库领域、人工智能领域等.着重论述了把K-均值聚类算法应用在关系数据库磁盘文件中的一种思想,允许K-均值方法对磁盘的大数据集进行聚集. 相似文献

7.

一种共调控基因聚类的新方法

白天周春光刘桂霞王晗王喆张宏婷《吉林大学学报(理学版)》2009,47(2):292-298

定义了一种基于滑动匹配的相似度, 并在此基础上提出一种能够自适应确定聚类数目的全局K-均值算法, 解决了现有共调控基因聚类方法无法考虑到基因的正反、延时、部分时间和差异表达全部4种共调控关系的问题. 将提出的算法应用于微阵列数据中, 并将实验结果与CLUSTER 3.0算法进行了比较, 验证了算法的可行性和有效性. 相似文献

8.

一种新的确定K-均值算法初始聚类中心的方法 总被引：4，自引：0，他引：4

王汉芝刘振全《天津科技大学学报》2005,20(4):76-79

针对传统的K-均值算法聚类时初始聚类中心难以确定的缺点，利用超立方体技术，并依据同类样本中多数样本具有类似的子向量的特点，将落入同一超立方体的样本认为是一类。然后以这些样本的均值作为初始聚类的中心，实现了聚类中心的确定。通过仿真实验和应用于沙尘暴和非沙尘暴样本的分类，验证了此方法的有效性。相似文献

9.

一种初值优化的K-均值文档聚类算法

陈媛媛屈志毅张恒龙廖绍雯《江西师范大学学报(自然科学版)》2008,32(2):206-210

K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果. 相似文献

10.

基于SOFM网络的改进K-均值聚类算法 总被引：1，自引：0，他引：1

丁春荣杨宝华《科技导报(北京)》2009,27(10)

针对传统的K-均值聚类算法中随机选取初始聚类中心的缺陷,提出一种改进的K-均值聚类算法,利用自组织特征映射网络(SOFM)自动获得初始聚类中心.实验结果表明,改进的K-均值聚类算法能有效改善聚类性能,提高聚类的准确率. 相似文献

11.

基于密度RPCL的K-means算法

谢娟英郭文娟谢维信高新波《西北大学学报(自然科学版)》2012,(4):570-576

目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。相似文献

12.

K-means算法聚类中心选取

张朝郭秀娟张坤鹏《吉林大学学报(信息科学版)》2019,37(4):437-441

传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。相似文献

13.

基于K-means的最佳聚类数的求解问题研究

付淇《南昌高专学报》2011,(2):158-159

针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题. 相似文献

14.

基于聚类优化的RBF神经网络多标记学习算法

冯新营计华张化祥《山东大学学报(理学版)》2012,47(5):63-67

多标记学习采用RBF神经网络与K-means聚类算法相结合取得了较好的效果,但由于聚类数事先不能很好地确定,无法给出准确的聚类个数值,会导致聚类质量下降、聚类结果不稳定等,进而影响RBF神经网络多标记算法的稳定性及分类性能。本文从样本几何结构的角度出发,采用一种聚类有效性指标函数,为每个类寻找最优的聚类个数,从而优化问题的求解。理论研究和实验结果表明,改进后的算法在分类的稳定性及分类性能方面都有较好的表现。相似文献

15.

云计算环境下关联性大数据实时流式可控聚类算法研究

李鹏飞刘春宇海军《科学技术与工程》2018,18(7)

针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。相似文献

16.

基于类间差异最大化的加权距离改进K-means算法

张雪凤刘鹏《山东大学学报(理学版)》2010,45(7):28-33

为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of the squared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。相似文献

17.

基于Leader的K均值改进算法

张琼张莹白清源谢丽聪谢伙生《福州大学学报(自然科学版)》2008,36(4):493-496

研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的. 相似文献