首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于模糊相似度的科技文献软聚类算法   总被引:3,自引:0,他引:3  
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。  相似文献   

2.
K中心点算法是一个常用的聚类算法,它的主要缺陷是容易陷入局部极值,计算代价太高.本文先构造一个运用余弦相似度的K中心点文档聚类算法,然后提出一个改进算法,该算法不增加计算的复杂性,显著改进文档的聚类结果.最后,将该改进算法作为局部搜索过程嵌入到迭代局部搜索结构中,构造一个基于K中心点的迭代局部搜索文档聚类算法,进一步改进了文档聚类结果.试验结果表明该算法显著改进了文档聚类结果.  相似文献   

3.
动态迭代聚类算法分析基因序列数据   总被引:1,自引:0,他引:1  
聚类技术在知识发现方面发挥了很重要的作用,K—均值算法是聚类分析中最常用的算法,但K—均值算法必须预先选择类的数目作为先验值,即研究者需要确定数据空间内有意义类的数目.针对这个问题,本文提出一种新的聚类算法—动态迭代聚类算法,动态选取K个边缘相似度的数据对象作为最初的初始聚类点,并根据类内或类间的相似度离差程度不断地精练(合并或分割)初始类群.模拟实验结果表明,该算法提高了聚类质量,使聚类具有更高的准确性。  相似文献   

4.
基于文本最小相似度的中心选取方法   总被引:1,自引:0,他引:1  
基于划分的聚类算法是一种局部最优算法.聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响.初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心.实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高.  相似文献   

5.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

6.
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果.  相似文献   

7.
该文将量子人工蜂群(Quantum artificial bee colony, QABC)算法用于K均值(K-means)聚类的类别中心点选择,优化K均值聚类算法,可有效解决因随机设置K均值中心点而导致聚类准确度不高的问题。该文设置K均值聚类类别数,并随机设置若干类别中心,采用人工蜂群(Artificial bee colony, ABC)算法优化类别中心点,根据待聚类样本点构建蜜蜂种群,并对蜂群个体位置采用量子比特表示。以样本点和中心点的距离的倒数作为ABC算法适应度,并将适应度值较高个体定义为蜜源。通过引领蜂在运动范围内的粗粒度遍历和跟随蜂的细粒度探索,不断搜寻适应度较高个体,并且更新蜜源,直至ABC算法稳定后确定较优蜜源位置为聚类中心。采用ABC优化得到的聚类中心进行K均值聚类。试验结果表明,通过合理设置ABC搜索边界,并引入蜂群位置的量子表示,可有效增强ABC对聚类中心的搜索精度。相比于常用聚类算法,QABC+K均值算法的聚类性能更优。  相似文献   

8.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

9.
定义一个确定聚类数K和初始数据中心的算法,将由算法得到的初始数据中心作为初始粒子,用粒子群优化算法寻优,获得最优数据中心;使用模糊K-Means算法,采用最优数据中心进行聚类.在UCI数据集上的实验结果表明,算法能准确实现分类,具有较强的全局寻优能力和较快的收敛能力,寻优时间较少,能有效地解决目标分类问题.  相似文献   

10.
基于遗传算法的截集FCM灰度图像分割方法研究   总被引:2,自引:1,他引:2  
以截集模糊C均值聚类(Sectional Set Fuzzy C—means algorithm:SSFCM)算法为基础,提出一种自适应遗传算法(Adaptive Genetic Algorithm)改进截集FCM算法。传统FCM算法中一般使用一维直方图初始化方法,使初始化与聚类算法相分离,没有形成整体,而且同一幅一维直方图可能对应不同的原始图像。引入自适应遗传算法,与截集FCM算法有机结合,用遗传算法解决初始化问题的同时.以遗传算法的寻优性能来指导聚类。实验表明,该算法效率较传统FCM算法和未改进截集FCM算法有很大的提高,同时能够保持较好的分割效果和质量。  相似文献   

11.
基于改进GA的K-均值聚类算法   总被引:3,自引:0,他引:3  
利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但容易出现局部早熟现象.为了克服以上缺点,借助免疫机制的优点,将免疫原理的选择操作机制引入遗传算法中,提出基于改进遗传的K-均值聚类算法,该方法结合K-均值算法的高效性和改进遗传算法的全局优化能力,较好地解决了聚类中心优化问题.试验结果表明,本算法能够有效改善聚类质量.  相似文献   

12.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

13.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

14.
文章提出了一种新的聚类方法NFC,首先用模糊逻辑神经元网络的聚类算法和Cauchy训练的模拟退火算法相结合的局部算法得到初始聚类中心,然后用FCM算法进行模糊聚类;实验证明,NFC算法在一定程度上解决了FCM局部极值问题且有效性非常高。  相似文献   

15.
K-means初始聚类中心优化算法研究   总被引:1,自引:1,他引:1  
由于K-means算法对初始中心的依赖性而导致聚类结果可能陷入局部极小,而采用密度函数法的多中心 聚类并结合小类合并运算的聚类结果明显优于K-means的聚类结果。该算法的每一次迭代都是倾向于发现超球 面簇,尤其对于延伸状的不规则簇具有良好的聚类能力。  相似文献   

16.
理想的P2P(Peer-to-Peer)搜索算法应该同时具有信息检索水平的查询质量和有效的搜索性能。然而,现有的搜索算法都不能同时较好地满足这两点。基于这两个目标,该文提出一种基于层次聚类的分布层层次聚类(DHC)搜索算法。该算法中首先利用向量空间模型将文件内容表示成向量的形式,然后经过层次聚类操作得到一棵关于全网所有文件向量的层次树,层次树信息分布式地存储于整个网络中,以层次树为路由线索,路由深度不会超过树的高度。初步仿真试验表明,该算法的查全率在80%以上,并具有对数量级的搜索与更新代价。  相似文献   

17.
FCM算法应用于文本聚类时,由于初始聚类中心点选择的随机性,以及容易陷入局部最优的问题,导致文本聚类效果较差.为了提高FCM算法的聚类精度,提出了采用黑洞算法寻找FCM最优初始聚类中心的方法.黑洞算法是一种启发式优化方法,在FCM初始聚类中心寻优的过程中,始终保持黑洞为全局最优解,最终发现FCM的最优初始聚类中心.实验结果表明,基于黑洞算法的FCM文本聚类方法可以解决FCM算法对初始中心点敏感和容易陷入局部最优的问题,聚类精度明显提高.  相似文献   

18.
传统-means聚类算法的性能依赖于初始聚类中心的选择.本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的K个节点作为聚类的初始聚类中心,然后进行聚类迭代过程.实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量.  相似文献   

19.
针对雷达辐射源信号参数严重混叠、聚类数目未知等问题,提出一种基于入侵性杂草优化模糊聚类的智能算法,该算法无需事先设定聚类数目,而是在整个数据集的属性空间内并行搜寻最佳的聚类数目和聚类中心,具有结构简单、鲁棒性好的特点。将此方法应用到雷达信号的分选当中,并与传统的K均值算法及AP聚类算法进行对比,实验结果验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号