首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 750 毫秒
1.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

2.
解的稀疏性的丧失——所有的训练样本均作为支持向量,是最小二乘支持向量机的缺点之一,针对导致模型复杂度提高和模型训练、识别速度降低的问题,从数据挖掘和支持向量的几何分布含义两个方面出发,提出了一种新的支持向量预选取算法。一方面对原数据集的每类数据分别进行K均值聚类,将所有的类中心作为原始数据的表征集;另一方面对原数据集用K最近邻方法提取原数据集的边界样本;最后将这两种方法提取的所有样本点的并集作为预选支持向量进行训练和预测。UCI数据库的实验表明:该方法充分融合了K均值和K最近邻预选取算法的优点,能有效的预选取出支持向量,同时保持较高的识别率,而且稀疏效果更稳定,稀疏性能优于经典的迭代剪枝算法。  相似文献   

3.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

4.
为了解决传统K均值算法在处理大规模数据时的局限性,在近似K均值算法(AKM)基础之上,利用对聚类中心进行分类的思想,提出了快速近似K均值算法(FAKM).该算法舍去了在AKM聚类结果中只获得少数样本的聚类中心,并充分利用类内样本密集稳定的聚类中心,使得迭代过程中待聚类样本数和类别数逐步减少,达到了提高算法速度及精简聚类结果的目的.将FAKM算法运用于实际的图像检索系统中,实验结果表明,系统在检索准确率、检索时间和聚类时间方面都得到了很好的改善.  相似文献   

5.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

6.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

7.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

8.
一种新的最近邻聚类算法   总被引:1,自引:0,他引:1  
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断.  相似文献   

9.
针对传统K均值算法需要提前指定聚类数目且易陷入局部最优的问题,提出了一种采用万有引力定律自动确定类数的K均值算法(Gravity K均值算法,GK均值算法)。所提算法利用正交设计方法在数据空间均匀投放若干探测器,探测器根据万有引力定律移动,当两个探测器的距离小于给定阈值时合并为一个,当探测器处于稳定状态时,探测器的个数就是聚类的数目。将得到的探测器作为K均值算法的初始中心点,有效地避免了K均值算法陷入局部最优。实验结果表明:相比传统K均值算法,本文提出的方法可以自动确定聚类数目,并给出较好的初始中心,算法的迭代次数至少减少了25%,聚类正确率平均提高了14%,DB(Davies and Bouldin)聚类评价指标平均降低了0.19。  相似文献   

10.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

11.
突发事件下应急物资配送问题的改进算法研究   总被引:1,自引:1,他引:0  
应急物资配送主要是应急车辆在最短的时间内把应急物资从各地应急储备仓运送到救灾点集散中心,其研究的核心是最短路径选择问题。将最邻近算法应用于应急物资的配送路径选择,提出一种多对多的改进最邻近优化算法。在该算法中,克服以往只能解决一对多问题的局限性,引用全新的编码方法,以时间作为衡量标准,同时对组合参数进行选择进化,以实现组网路径的有效选择。通过仿真实验证明该算法具有很好的适应性。  相似文献   

12.
针对传统K近邻法的缺陷,改进的K近邻法首先对训练样本进行聚类,将样本的特征空间划分成若干满足一定条件的小超球体,然后依据最近间隔值在这些小超球体内搜索待分类样本的K个近邻点.算法通过特征选取,选出反映样本模式重要信息的特征,从而确保了聚类的质量.同时K近邻算法中引入的最近间隔值,既确定了近邻点的搜索半径,又保障了搜索的准确性.通过实验证实,该方法不但节省时间,还有较高的识别率.  相似文献   

13.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

14.
针对当前空间数据库聚类方法未考虑降维后的距离特征反向结果, 导致空间数据分量失真, 存在聚类精度低、 耗时长的问题, 提出一种空间数据库反向最近邻聚类方法. 首先, 通过选取训练样本集实现核矩阵的特征分解, 获得其距离特征修正值去除初始值的影响; 然后, 根据核主成分分析(KPCA)降维并结合降维后的距离特征反向结果, 利用反向最近邻聚类方法与扩展的部分失真搜索法相结合, 实现空间数据的聚类; 最后利用选定的聚类中心对数据集进行计算, 计算数据集第一维分量与聚类中心第一维分量之间的失真, 得到反向最近邻, 直至所有空间数据均找到所属类别, 最终完成空间数据库反向最近邻聚类. 实验结果表明, 该方法提高了空间数据的聚类精度, 减少了空间数据聚类所用时间.  相似文献   

15.
本文提出一种基于径向基函数(RBF)神经网络的烧结终点预测模型。该模型首先采用改进的最近邻聚类算法确定径向基函数中心,接着应用递推最小二乘法训练网络的权值。通过现场采集数据对该模型进行仿真,其实验结果表明,该模型具有较好的学习能力和泛化能力,为烧结终点的预测提供了一种新的解决方法。  相似文献   

16.
RNN(相互最近邻)算法是一种基于层次的聚类算法,它比其他传统的层次聚类算法聚类更快.由于利用RNN算法对同一个数据集聚类,若选择不同簇间距离度量方式,那么聚类结果就会不同.因此在分析聚类结果对距离度量方式依赖性的基础上,采用用聚类聚集的思想,找出一种新的聚类方式,从而使得聚类效果更好.  相似文献   

17.
范围最近邻(RNN)查询检索到一个区域内每个点的最近邻(NN),它是点和连续最近邻查询的推广.本文将范围看作矩形,分析了二维空间中范围最近邻查询的性质,描述了算法处理过程,并对提出的算法进行了性能分析.  相似文献   

18.
Though K-means is very popular for general clustering, its performance which generally converges to numerous local minima depends highly on initial cluster centers. In this paper a novel initialization scheme to select initial cluster centers for K-means clustering is proposed. This algorithm is based on reverse nearest neighbor (RNN) search which retrieves all points in a given data set whose nearest neighbor is a given query point. The initial cluster centers computed using this methodology are found to be very close to the desired cluster centers for iterative clustering algorithms. This procedure is applicable to clustering algorithms for continuous data. The application of proposed algorithm to K-means clustering algorithm is demonstrated. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method. Foundation item: Supported by the National Natural Science Foundation of China (60503020, 60503033, 60703086), the Natural Science Foundation of Jiangsu Province (BK2006094), the Opening Foundation of Jiangsu Key Laboratory of Computer Information Processing Technology in Soochow University (KJS0714) and the Research Foundation of Nanjing University of Posts and Telecommunications (NY207052, NY207082)  相似文献   

19.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号