首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

2.
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

3.
随着大数据时代的到来,如何快速、准确地从海量数据中挖掘有用的信息成为一个极其关键的问题。随着样本数据维度和数量的增加,导致K-Means聚类算法的计算成本急剧增加。因此,一种新颖的加速精确K-Means聚类算法近期被用来降低计算成本,称为“Ball K-Means”。尽管Ball K-Means降低了计算成本,但是该算法和K-Means算法都缺乏全局搜索能力。因此,本文从全局搜索能力和计算成本两个因素考虑,通过在Ball K-Means算法中引入一种防止聚类过程过早收敛的探索向量,提出一种针对高维度、大样本数据的基于探索向量的Ball K-Means聚类算法,称为“Ball XK-Means”。实验结果表明,在高维度和大样本数据下,本文提出的算法不仅比Ball K-Means和K-Means算法能够获更稳定和更精确的聚类结果,而且比K-Means和XK-Means算法有更低的计算成本和更高的效率。  相似文献   

4.
为解决传统K-Means算法以及它的变种会产生较大波动的聚类结果的问题,使用改进的模拟退火算法来优化初始中心,得到一种适合对文本数据聚类分析的算法.把改进的模拟退火算法和K-Means算法结合在一起,从而达到既能发挥模拟退火算法的全局寻优能力,又可以兼顾K-Means的局部寻优能力,较好地克服了K-Means对初始化敏感、容易陷入局部最优的缺点.实验证明,该算法可以生成质量较高而且聚类质量波动性较小的结果.  相似文献   

5.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

6.
为了克服传统K-Means算法k值不能确定问题和不具备变量自动选择能力,将预测强度和变量自动加权K-Means算法相结合,提出基于预测强度的变量自动加权K-Means算法。预测强度表示聚类模型对未知数据的预测能力,预测能力越强,则聚类结果越佳,主要用于k值的确定;变量自动加权K-Means算法具有在聚类过程中自动调整变量权重的能力,对于噪声变量和冗余变量削弱其对距离的贡献,使聚类结果反映最真实的聚类结构。实验表明,算法具有较强的分类能力和预测能力。  相似文献   

7.
为了克服传统K-Means算法初始聚类中心选择的盲目性,提高聚类精度和聚类结果的稳定性,提出一种基于闻香识源的人工蜂群聚类算法,用于数据聚类.该算法首先利用样本数据稠密度反馈的信息(花香)来寻找初始聚类中心,接着交替进行K-Means聚类,人工蜂群在高密度数据区以贪婪原则搜索最佳聚类中心,往复多次以达到良好且稳定的聚类效果.实验表明该算法简单高效,聚类效果好.  相似文献   

8.
视觉词典树是通过视觉词袋(Bag of Visual Words,Bo VW)模型将一组图像形成单词表征场景。它主要通过聚类算法构造视觉词典树,为了改进K-Means在寻找聚类中心的过程中受到噪声异常维度的干扰,基于K中心算法提出了一种分层视觉词典树构造方法。该方法提出了从每次迭代后的聚类特征点中随机地选取新的中心点,可避免因噪声异常维度使计算中心点位置时有较大误差,从而可提高聚类质量,使类簇更加紧凑。在图像的分类实验中,分别使用K-Means和K中心算法对构建的视觉词典树进行性能评价,实验结果证明通过K中心算法构造的分层视觉词典树可有效提高图像分类准确率。  相似文献   

9.
针对公路裂缝检测中的图像分割问题,运用机器学习领域的方法,以裂缝图像为研究对象,在深入分析经典K-Means聚类算法以及高斯混合模型(Gaussian Mixture Model, GMM)之后,提出一个利用全局K-Means和高斯混合模型来对公路裂缝图像进行分割的方法。该方法在全局K-Means聚类算法的基础上,采用改进策略,同时,将传统GMM的每一个概率分布,进一步再细分成单个的概率成分,在辅助变量计算过程中,采用EM算法。仿真图像和实际裂缝图像实验结果显示,本研究得到了比使用传统K-Means算法和普通GMM的分割方法精度更高、稳定性更好的分割结果。  相似文献   

10.
在使用K-Means进行文本聚类的研究中,针对K-Means算法缺点,提出了利用DBSACN算法确定参数K的方法,将基于密度的聚类算法应用于特征选取上,使得K值计算有了一定的确定性,从而提高了聚类质量。这种将多种算法混合运用的方法,为文本聚类算法的设计提供一个新的方向。  相似文献   

11.
针对结构面产状常规分类方法存在的不足,提出一种新型的结构面分类算法.基于K-Means算法的结构面分类,将人工鱼群算法(artificial fish swarm algorithm,AFSA)与K-Means算法相结合,建立了AFSA-RSK结构面分类算法.利用鱼群算法强大的寻优能力,代替K-Means算法对结构面产状聚心集进行搜寻,并通过K-Means算法进行聚类.聚类完成后,选择相应参数指标对聚类效果进行评价.针对存在的问题,对鱼群算法的步长和视野进行修正,提高寻找聚心集的精度,动态地调整了聚类过程.将改进后的AFSA-RSK算法与其他算法进行比较,结果表明在迭代速度、聚类精度以及内存占比上,改进后的AFSA-RSK算法都要更优,更适合在结构面分组方面的应用.  相似文献   

12.
动态迭代聚类算法分析基因序列数据   总被引:1,自引:0,他引:1  
聚类技术在知识发现方面发挥了很重要的作用,K—均值算法是聚类分析中最常用的算法,但K—均值算法必须预先选择类的数目作为先验值,即研究者需要确定数据空间内有意义类的数目.针对这个问题,本文提出一种新的聚类算法—动态迭代聚类算法,动态选取K个边缘相似度的数据对象作为最初的初始聚类点,并根据类内或类间的相似度离差程度不断地精练(合并或分割)初始类群.模拟实验结果表明,该算法提高了聚类质量,使聚类具有更高的准确性。  相似文献   

13.
为了保证智能变电站的网络通信安全和整个变电站的稳定运行,提出了一种基于机器学习k-means聚类算法的异常流量分析方法。根据智能变电站中过程层网络的特性,结合对IEC61850智能变电站专有GOOSE(generic object-oriented substation event)以及SV(sample value)协议的报文结构解析,使用了一种基于信息熵的特征选取方法对智能变电站正常工作时站内网络通信流量进行特征分析选择,利用k-means聚类算法完成了对异常流量的检测分析及其相关分析。相较于以往方法,文中方法对智能变电站的过程层网络流量信息的特征进行了选取,根据信息熵理论,完成了重要特征的选择和冗余特征的剔除,提高了聚类算法的效率,提高了对异常流量检测的准确性。  相似文献   

14.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

15.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

16.
 空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。  相似文献   

17.
为了解决模糊关联规则挖掘算法需要用户事先给定模糊集和相应隶属度函数的问题,提出基于分布式聚类自动生成模糊集及隶属度函数的算法GFAM.该算法利用分布式K-Means聚类算法对每个数值型属性进行聚类,求得聚类中心,由此构造全局模糊集,定义全局隶属度函数.DFAR算法根据构造的全局模糊集及隶属度函数进行分布式模糊频繁项目集的快速挖掘,采用全局-局部站点模式,其中包括局部模糊频繁项目集产生算法FLF和全局模糊频繁项目集产生算法FGF.实验结果表明,该算法能准确地生成全局模糊频繁项目集,在求解全局模糊频繁项目集过程中,传送局部模糊候选项目集支持数的通信量为O(n),提高了算法的挖掘效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号