首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
针对现有聚类算法K-均值存在事先指定聚类类数及仿射传播存在计算复杂度偏高的缺陷,提出了一种新型的聚类算法Increase K-Means,并将其应用到Blog内容的相似度聚类分析中,较好地满足了社区发现和话题跟踪的需求.仿真结果表明:在Blog文本聚类分析中,Increase K-Means在时间上与K-Means相近,在精度上与仿射传播接近,适用于大规模网络文本的分析处理.  相似文献   

2.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

3.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

4.
基于集群环境的K-Means聚类算法的并行化   总被引:1,自引:1,他引:0  
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

5.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。  相似文献   

6.
一种新的K-Means蚁群聚类算法   总被引:1,自引:0,他引:1  
针对蚁群聚类算法聚类质量不高的原因,使用K-Means算法改进蚁群聚类规则,提出一种新的K-Means蚁群聚类算法(KM-AntClust),并通过实验验证新算法的聚类效果.实验结果表明,新的算法可以明显提高聚类质量.  相似文献   

7.
针对结构面产状常规分类方法存在的不足,提出一种新型的结构面分类算法.基于K-Means算法的结构面分类,将人工鱼群算法(artificial fish swarm algorithm,AFSA)与K-Means算法相结合,建立了AFSA-RSK结构面分类算法.利用鱼群算法强大的寻优能力,代替K-Means算法对结构面产状聚心集进行搜寻,并通过K-Means算法进行聚类.聚类完成后,选择相应参数指标对聚类效果进行评价.针对存在的问题,对鱼群算法的步长和视野进行修正,提高寻找聚心集的精度,动态地调整了聚类过程.将改进后的AFSA-RSK算法与其他算法进行比较,结果表明在迭代速度、聚类精度以及内存占比上,改进后的AFSA-RSK算法都要更优,更适合在结构面分组方面的应用.  相似文献   

8.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

9.
随着大数据时代的到来,如何快速、准确地从海量数据中挖掘有用的信息成为一个极其关键的问题。随着样本数据维度和数量的增加,导致K-Means聚类算法的计算成本急剧增加。因此,一种新颖的加速精确K-Means聚类算法近期被用来降低计算成本,称为“Ball K-Means”。尽管Ball K-Means降低了计算成本,但是该算法和K-Means算法都缺乏全局搜索能力。因此,本文从全局搜索能力和计算成本两个因素考虑,通过在Ball K-Means算法中引入一种防止聚类过程过早收敛的探索向量,提出一种针对高维度、大样本数据的基于探索向量的Ball K-Means聚类算法,称为“Ball XK-Means”。实验结果表明,在高维度和大样本数据下,本文提出的算法不仅比Ball K-Means和K-Means算法能够获更稳定和更精确的聚类结果,而且比K-Means和XK-Means算法有更低的计算成本和更高的效率。  相似文献   

10.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

11.
动态迭代聚类算法分析基因序列数据   总被引:1,自引:0,他引:1  
聚类技术在知识发现方面发挥了很重要的作用,K—均值算法是聚类分析中最常用的算法,但K—均值算法必须预先选择类的数目作为先验值,即研究者需要确定数据空间内有意义类的数目.针对这个问题,本文提出一种新的聚类算法—动态迭代聚类算法,动态选取K个边缘相似度的数据对象作为最初的初始聚类点,并根据类内或类间的相似度离差程度不断地精练(合并或分割)初始类群.模拟实验结果表明,该算法提高了聚类质量,使聚类具有更高的准确性。  相似文献   

12.
针对K-Means算法对初始聚类中心的依赖性较高,容易出现局部最优停滞的问题,提出一种改进樽海鞘群算法优化 K-Means 的小麦覆盖度提取算法。首先,将小麦图像转换到HSV色彩空间;然后,用改进樽海鞘群算法进行全局寻优,以获得全局最优值作为K-Means算法的初始聚类中心,接着运用K-Means算法进行局部寻优,直到迭代完成;最终,输出经过分割的小麦图像。为了评估算法性能,使用12个基准函数对ISSA及其他智能优化算法进行对比测试,同时将改进樽海鞘群算法优化K-Means应用于小麦覆盖度提取。结果表明,ISSA算法在优化精度和收敛速度上均超越其他算法,鲁棒性也得到了显著提高。与其他算法相比,ISSA-K算法分割后的小麦图像纹理比较清晰,效果更佳,同时具有更加高效的优势,可用于小麦覆盖度的提取,具有较强的实用性。  相似文献   

13.
 空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。  相似文献   

14.
提出一种基于R-Link树的快速空间索引结构, 并在该结构中引入K-Means算法. 在K-Means算法中采用均值标准差确定初始聚类中心, 提高了收敛速度, 并通过距离准则函数优化K值, 避免了K值的盲目选取. 与R-Link相比空间开销代价稍大, 但性能更高, 且数据量越多, 此结构的整体性能越好.  相似文献   

15.
Immunodominance and clonal selection inspired multiobjective clustering   总被引:1,自引:0,他引:1  
The biological immune system is a highly parallel and distributed adaptive system. The information processing abilities of the immune system provide important insights into the field of computation. Based on immunodominance in the biological immune system and the clonal selection mechanism, a novel data mining method, Immune Dominance Clonal Multiobjective Clustering algorithm (IDCMC), is presented. The algorithm divides an individual population into three sub-populations according to three different measurements, and adopts different evolution and selection strategies for each sub-population. The update of each sub-population, however, is not carried out in isolation. The periodic combination operation of the analysis of the three sub-populations represents considerable advantages in its global search ability. The clustering task is a multiobjective optimization problem, which is more robust with respect to the variety of cluster structures of different datasets than a single-objective clustering algorithm. In addition, the new algorithm can determine the number of clusters automatically, which should identify the most promising clustering solutions in the candidate set. The experimental results, using artificial datasets with different manifold structure and handwritten digit datasets, show that the IDCMC outperforms the PESAII-based clustering method, the genetic algorithm-based clustering technique and the original K-Means algorithm in solving most of the problems tested.  相似文献   

16.
针对Femtocell网络中干扰管理和功率控制的问题,考虑FBS间的同层干扰,提出基于对数效用的功率控制算法.运用K-Means算法对大量部署的FBS进行分簇,K-Means分簇算法可在低复杂度条件下将FBS划分成不同的簇,以便进行干扰管理.基于对数效用的功率控制算法,能保障FUE处于最低信干噪比,深度优化FBS的发射功率,可在保障吞吐量的同时提升系统能效.  相似文献   

17.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

18.
针对市场上智能家居协议标准繁多,加大了流量识别与分类难度这一问题,提出了一种多协议下智能家居协议的分类方法.该方法利用数理统计计算出K-Means聚类算法的K值和聚类初始中心,基于向量空间模型(vec-tor space model,VSM)概念,使用数据对象间的相似度去代替K-Means聚类算法中数据对象间的距离,使用信息熵作为聚类好坏的评估.选用真实环境下捕获的实验数据进行测试验证.结果表明,该方法对多协议下智能家居协议的分类精度达到90%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号