期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李彦明《甘肃科技》2018,(4)

针对现有(Rival Penalized Competitive Learning,RPCL)算法之不足,提出根据样本数据集自然分布规定样本密度,把此密度代入次胜者受罚竞争学习算法(RPCL)节点权值调整的改进RPCL算法;以改进RPCL算法对数据集进行预处理,确定K-means算法的合理类簇数目和最佳初始聚类中心,提高K-means算法的聚类效率和聚类准确性,促进其尽快地收敛至全局最优解。相似文献

2.

基于密度的改进聚类算法比较

郭文娟《甘肃科技》2017,33(1)

针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。相似文献

3.

一种新的密度加权粗糙K-均值聚类算法 总被引：1，自引：0，他引：1

谢娟英张琰谢维信高新波《山东大学学报(理学版)》2010,45(7):1-6

为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。相似文献

4.

基于半监督K-means的K值全局寻优算法 总被引：3，自引：0，他引：3

孙雪李昆仑胡夕坤赵瑞《北京交通大学学报(自然科学版)》2009,33(6)

提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能. 相似文献

5.

基于粒子群的三支聚类算法

下载免费PDF全文

高艳龙万仁霞陈瑞典《福州大学学报(自然科学版)》2022,50(3):301-307

针对K均值聚类(K-means)算法处理复杂问题时易陷入局部最优值、聚类质量较差等不足,提出一种基于粒子群的三支聚类算法.该算法先以随机产生的聚类中心组合作为初始粒子,构成粒子群;然后,通过调整算法中的速度公式参数,使粒子在迭代过程中能较快速地找出全局最优解,即最优的聚类中心;最后,采用三支决策的方法考察数据与类的关系,把确定归属的数据分配到类的核心域,归属不确定的数据分配到类的边界域.实验结果验证了所提算法的有效性,在寻找全局最优值和聚类结果准确性等方面算法都具有较好的性能. 相似文献

6.

K-means算法聚类中心选取

张朝郭秀娟张坤鹏《吉林大学学报(信息科学版)》2019,37(4):437-441

传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。相似文献

7.

一种确定最佳聚类数的新算法 总被引：1，自引：0，他引：1

谢娟英马箐谢维信《陕西师范大学学报(自然科学版)》2012,(1):13-18

针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响. 相似文献

8.

改进萤火虫算法与K-means算法结合的配电网负荷聚类特性分析

王继东顾志成葛磊蛟赵长伟贾东强《天津大学学报(自然科学与工程技术版)》2023,(2):137-147

负荷聚类特性分析是实现配电网的定制电力、高品质供电、高可靠性供电的重要基础．然而现有的Kmeans聚类分析方法，受限于数据样本集和聚类初始中心的选取等，会出现因初始中心不同造成聚类结果差异大的问题．为此，针对配电网负荷数据特点，提出一种基于改进萤火虫算法和K-means算法结合的配电网负荷聚类特性分析方法．利用萤火虫优化算法全局搜索能力强的优势，考虑类内相似度和类间差异度，寻优K-means算法初始中心，使聚类结果的聚类有效性指标取得最小值；进一步针对萤火虫算法在处理负荷数据时的弱点，通过密度法为萤火虫算法加入优秀初代个体，改进吸引公式以及个体间概率吸引移动的方式优化迭代过程中的个体移动方式，加快萤火虫算法前期收敛速度，并实现后期稳定收敛，算法更快地接近极值，计算速度更快．算例验证了本文所提算法的聚类有效性，并针对某配电台区电力负荷数据，寻得K-means算法最优初始中心，使得聚类结果的戴维森堡丁指标(Davies-Bouldinindex,DBI)最小，负荷聚类结果类内差异小，类间差异大，最终聚类中心的特征代表性强，为负荷类型划分、聚类特性分析提供重要依据，为需求侧差异化电力服务定制... 相似文献

9.

基于全局优化K均值聚类的医学图像分割方法

余柳青覃晓元昌安蔡宏果《广西师范学院学报(自然科学版)》2015,(1)

K均值聚类是医学图像分割中最常用的方法之一,但K均值(K-means)聚类算法一个固有缺陷,在于若初始中心点的选取有重复的中心点,则聚类结果将含有空簇而使得聚类结果没有意义,进而影响图像分割效果。针对这一缺陷,首先提出在初始选点过程中进行聚类中心优化,避免产生重复的解决办法——初始点优化K均值算法(Initialization Optimized K-means,IOK-means),继而将初始选点数据域约束到图像直方图峰值集,进一步改善聚类效果,得到全局优化K均值聚类算法(Global Optimized K-means,GOK-means)。将GOK-means应用在脑部医学图像分割的实验表明:GOK-means能够将脑部灰质、白质及骨骼部分清晰地分割,与传统K均值算法IOKmeans相比,GOK-means的初始化聚类中心成功率达到100%,聚类总体均方差降低了54.9%,验证了GOK-means的有效性。相似文献

10.

一种改进的K一均值聚类算法 总被引：2，自引：0，他引：2

但汉辉张玉芳张世勇《重庆工商大学学报(自然科学版)》2009,26(2):144-147

为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低. 相似文献

11.

基于离群点检测的K-means算法

冷泳林张清辰赵亮鲁富宇《锦州师范学院学报(自然科学版)》2014,(1):34-38,48

K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。相似文献

12.

基于K-means的最佳聚类数的求解问题研究

付淇《南昌高专学报》2011,(2):158-159

针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题. 相似文献

13.

基于高斯混合密度模型的医学图像聚类方法 总被引：2，自引：1，他引：1

宋余庆王春红陈健美谢从华《江苏大学学报(自然科学版)》2009,30(3)

研究了医学图像的聚类问题,提出一种基于高斯混合密度模型的K-EM聚类算法,并将此算法用于人体腹部图像数据,实现肝、肾、脾等主要器官的分类.在算法中,随机选取腹部图像像素数据,用QAIC信息准则确定训练样本的最佳类别数;用K均值聚类算法得到混合模型的初始参数;用期望最大(EM)算法多次迭代建立腹部图像数据的混合密度模型;运用贝叶斯准则,将腹部图像所有像素值划分到混合模型中相应的模型分支,得到每个器官像素值划分的正确率与误判率.试验结果表明,新算法分类的平均正确率高于85%、误判率低于10%,优于K均值算法. 相似文献

14.

Application of Algorithm CARDBK in Document Clustering

Yehang Zhu Mingjie Zhang Feng Shi 《武汉大学学报:自然科学英文版》2018,23(6):514-524

In the K-means clustering algorithm, each data point is uniquely placed into one category. The clustering quality is heavily dependent on the initial cluster centroid. Different initializations can yield varied results; local adjustment cannot save the clustering result from poor local optima. If there is an anomaly in a cluster, it will seriously affect the cluster mean value. The K-means clustering algorithm is only suitable for clusters with convex shapes. We therefore propose a novel clustering algorithm CARDBK—"centroid all rank distance(CARD)" which means that all centroids are sorted by distance value from one point and "BK" are the initials of "batch K-means"—in which one point not only modifies a cluster centroid nearest to this point but also modifies multiple clusters centroids adjacent to this point, and the degree of influence of a point on a cluster centroid depends on the distance value between this point and the other nearer cluster centroids. Experimental results showed that our CARDBK algorithm outperformed other algorithms when tested on a number of different data sets based on the following performance indexes: entropy, purity, F1 value, Rand index and normalized mutual information(NMI). Our algorithm manifested to be more stable, linearly scalable and faster. 相似文献

15.

数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究

陈晓勇顾晖彭志娟《科学技术与工程》2013,13(34)

K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作：对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出：聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。相似文献

16.

云计算环境下关联性大数据实时流式可控聚类算法研究

李鹏飞刘春宇海军《科学技术与工程》2018,18(7)

针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。相似文献

17.

用改进的RPCL算法提取聚类的最佳数目 总被引：6，自引：0，他引：6

李昕郑宇江芳泽《上海大学学报(自然科学版)》1999,5(5):409-413

对于传统的Ｋ平均算法来说,如何选择适当类的数目是一个难以解决的问题．有人提出了次胜者受罚的竞争学习（ｒｉｖａｌｐｅｎａｌｉｚｅｄｃｏｍｐｅｔｉｔｉｖｅｌｅａｒｎｉｎｇ：ＲＰＣＬ）算法试图来解决这一问题．但是,当数据类有重叠以及输入矢量含有非独立项时,ＲＰＣＬ算法的性能不能令人满意．本文提出了一种结合全协方差矩阵的ＲＰＣＬ算法,并逐步删除那些只包含少量训练数据的类．这种算法,我们称之为改进的ＲＰＣＬ算法．我们用改进的ＲＰＣＬ算法来确定高斯混合分布类的数目,并将其与原来的ＲＰＣＬ进行比较．实验证明,改进的ＲＰＣＬ算法比原来的ＲＰＣＬ算法能够更好地表征类相似文献

18.

K-means初始聚类中心优化算法研究 总被引：1，自引：1，他引：1

毛韶阳李肯立《重庆邮电大学学报(自然科学版)》2007,19(4):422-425

由于K-means算法对初始中心的依赖性而导致聚类结果可能陷入局部极小,而采用密度函数法的多中心聚类并结合小类合并运算的聚类结果明显优于K-means的聚类结果。该算法的每一次迭代都是倾向于发现超球面簇，尤其对于延伸状的不规则簇具有良好的聚类能力。相似文献