首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
基于文本最小相似度的中心选取方法   总被引:1,自引:0,他引:1  
基于划分的聚类算法是一种局部最优算法.聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响.初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心.实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高.  相似文献   

2.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

3.
聚类分析是数据挖掘的一个重要运用方法,它是一个把数据对象划分成子集的过程.k-means算法是一个基于划分且应用非常广泛的聚类算法,具有原理简单、便于理解和实现、能处理大数据集等优点.但是,该算法也存在着一些不可避免的缺点,本论述针对在多维空间k-means算法中聚类数需要事先给定以及该算法对初始中心点选取的敏感性这两方面的缺点给出了改进算法,并选取数据集对改进算法进行试验.结果表明笔者提出的改进算法比传统的k-means算法和基于最大最小距离算法的k-means聚类算法具有更高的有效性和稳定性.  相似文献   

4.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

5.
针对传统聚类算法存在样本形状及孤立点敏感的问题,提出基于修剪树的优化聚类中心(Optimized Clustering Center Based on Trimmed Tree,OCT)算法.该算法自适应地寻找裁剪尺寸来修剪并分割最小生成树为森林,获取森林全部叶子结点并再次构造最小生成树,根据预设簇数n,修剪最小生成树的n-1条最长边,得到包含n棵树的森林,计算森林中每棵树的质心并将其置为初始类簇聚类中心.在仿真数据集和真实数据集上的测试结果表明,OTC算法的平均识别率分别为98.8%和95.7%,平均耗时为57 ms和10.53 ms.  相似文献   

6.
优化初始中心的模糊C-均值(FCM)算法   总被引:1,自引:0,他引:1  
文章针对模糊C-均值(FCM)算法对初始中心敏感的缺点,通过计算样本的权重,提出基于权重的初始中心选取算法,选取有代表性的样本作为初始聚类中心,给出优化初始聚类中心的FCM算法.与传统算法比较,改进算法可以得到较稳定的结果,并且提高了聚类的准确率;实验证明了改进算法的有效性.  相似文献   

7.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

8.
针对传统模糊聚类算法需提前设置参数和初始聚类中心, 导致聚类结果不稳定的问题, 提出一种基于权重差异度的动态模糊聚类算法. 首先引入样本特征权重向量和样本间差异度的概念, 对数据集分布情况进行描述, 并采用新的评价指标获取候选聚类中心; 然后根据最小差异度准则, 对剩余样本点进行分类; 最后结合Davies-Bouldin指数(DBI)评价准则对候选聚类中心做进一步筛选与合并. 实验结果表明, 该算法在不同测试数据集上的性能明显优于传统聚类算法, 具有更高的自适应性和稳定性.  相似文献   

9.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

10.
针对传统κ-均值聚类方法不能处理大规模聚类的问题,提出一种加速κ-均值聚类方法,称为S_κ-均值聚类算法.该方法在传统κ-均值方法基础上,首先随机抽取一定量的样本点作为初始工作集,并在初始工作集上进行聚类,求出相应的类中心.然后对剩余的样本,根据其与已得到的类的相似度进行一次性的划分,从而得到划分后的类别.由于该方法只有较小规模的初始工作集需要进行一般的κ-均值聚类,而剩余的大多数数据不需要进行反复迭代就可以直接得到其聚类结果,从而在很大程度上提高了聚类效率,解决了传统κ-均值聚类方法不能用于处理大规模数据聚类的问题.实验结果表明,与传统κ-均值聚类方法相比,S_κ-均值聚类算法的聚类速度得到了明显提高,能够有效处理大规模数据的聚类问题.  相似文献   

11.
针对传统K-means算法在初始质心选取的敏感性以及迭代计算的冗余性这两方面的缺陷,提出一种高效的聚类算法(ECA).根据数据对象的空间分布情况,首先采用空间划分预聚类算法(SDPCA)对数据集实现预聚类划分,然后采用基于邻近簇调整的优化聚类算法(OCANC)对预聚类成果进行优化处理,最终获取聚类成果.实验证明,该改进算法能消除对初始输入的敏感性,以更高的运行效率获取较高质量的聚类结果.  相似文献   

12.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

13.
负荷聚类特性分析是实现配电网的定制电力、高品质供电、高可靠性供电的重要基础.然而现有的Kmeans聚类分析方法,受限于数据样本集和聚类初始中心的选取等,会出现因初始中心不同造成聚类结果差异大的问题.为此,针对配电网负荷数据特点,提出一种基于改进萤火虫算法和K-means算法结合的配电网负荷聚类特性分析方法.利用萤火虫优化算法全局搜索能力强的优势,考虑类内相似度和类间差异度,寻优K-means算法初始中心,使聚类结果的聚类有效性指标取得最小值;进一步针对萤火虫算法在处理负荷数据时的弱点,通过密度法为萤火虫算法加入优秀初代个体,改进吸引公式以及个体间概率吸引移动的方式优化迭代过程中的个体移动方式,加快萤火虫算法前期收敛速度,并实现后期稳定收敛,算法更快地接近极值,计算速度更快.算例验证了本文所提算法的聚类有效性,并针对某配电台区电力负荷数据,寻得K-means算法最优初始中心,使得聚类结果的戴维森堡丁指标(Davies-Bouldinindex,DBI)最小,负荷聚类结果类内差异小,类间差异大,最终聚类中心的特征代表性强,为负荷类型划分、聚类特性分析提供重要依据,为需求侧差异化电力服务定制...  相似文献   

14.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

15.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

16.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率.  相似文献   

17.
针对目前城市功能区划分大多依靠人工完成,且未充分使用城市中时空数据的问题,提出一种基于时空语义挖掘的城市功能区识别方案.首先,选取某城市矩形区域为研究样本,并以建筑物为划分依据将研究样本划分为有效的基础区域;然后,对各基础区域内的新浪微博位置签到数据及POI(Points of Interest)数据进行时空语义挖掘,采用狄利克雷多项式回归(DMR)主题模型生成区域的功能性向量;最后,通过向量聚类,依据POI类别比例完成区域的功能性识别.实验结果表明,本方案相比基于POI密度的k-means聚类方案和基于潜在狄利克雷分布(LDA)主题模型的城市功能区识别方法具有更高的准确性,位置签到数据所表征出的人们活动模式可以揭示城市功能区之间的差异,在城市地理空间分析上具有良好的效果.  相似文献   

18.
针对传统K-eans 算法因初始聚类中心的随机性而导致聚类结果产生很大的波动性问题, 提出一种基于最小距离乘积聚类算法CAMDP(Clustering Algorithm based on Min-Distance Product), 利用数次抽样技术, 在得到的聚类中心集合上继续使用最小乘积法寻找最佳的初始聚类中心, 较大程度减少了K-eans聚类算法对初值选取的随机性。实验结果表明: 改进后的K-eans算法既考虑了网络结构的拓扑信息, 又考虑了节点的属性特征, 为社区划分提供了有力的决策支持。  相似文献   

19.
为解决常用于就业数据信息分析的K-means算法中初始化聚类中心敏感和容易陷入局部最优值问题,提出了一种新的动态聚类算法.该算法首先利用最近邻聚类法获得初始聚类中心,然后利用小类对合并条件进行聚类合并,从而获得更优的聚类结果.以多个高职院校近几年的就业数据为样本信息,在数据预处理的基础上,运用提出的聚类方法进行了聚类实验分析,并挖掘出与就业质量相关的因素.最后的实验结果表明,文中提出的聚类方法聚类划分效果更优.  相似文献   

20.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号