共查询到20条相似文献,搜索用时 15 毫秒
1.
《广西大学学报(自然科学版)》2016,(5)
事务型数据的CLOPE聚类算法在运行速度、内存开销和聚类效果方面表现优异,但随着数据量飞速增长,其运行时间也随之急剧变长甚至无法使用。为此,利用Hadoop框架下的YARN资源管理系统,对CLOPE算法进行改进,提出基于MapReduce架构的CLOPE并行聚类算法。该算法由两个阶段组成,第一阶段执行Map操作,Hadoop架构对数据集分片并行并运行CLOPE算法聚类成小聚簇;第二阶段执行Reduce操作,通过多次迭代把各个小聚簇聚合成大聚簇。实验结果证明:分析1 000条20 000个属性的亚马逊数据记录,MapReduce-CLOPE算法耗时稳定在22 s,而CLOPE算法耗时在50~60 s。随着数据量的增大,CLOPE算法无法计算而MapReduce-CLOPE算法耗时基本稳定。因此,MapReduce-CLOPE算法在计算时间方面要显著地优于CLOPE算法,且计算时间受数据量大小的影响较小,而在聚类质量方面与CLOPE算法相近。 相似文献
2.
k-means聚类算法的MapReduce并行化实现 总被引:1,自引:0,他引:1
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性. 相似文献
3.
数据挖掘是近年来非常热门的研究方向。聚类分析是数据挖掘的一个重要研究领域。本文归纳总结了数据挖掘中传统聚类算法,并对现今新发展的,比较热门的聚类算法进行了介绍。 相似文献
4.
《哈尔滨商业大学学报(自然科学版)》2017,(6)
以海量非结构化数据为研究对象,在已有聚类算法研究基础上,从数据的获取与预处理,到数据聚类,再到数据的个性化管理全过程进行分析,针对数据聚类过程中的计算量庞大和复杂程度高的现状对已有CURE聚类算法进行优化,尽可能的最大程度提高数据聚类效率,进而提高大数据挖掘水平,为大数据应用提供更好的服务.通过以某通信企业不断变化的用户数据为分析对象,证明此次基于CURE聚类算法优化的数据挖掘算法有效性,结果表明CURE聚类算法优化具有一定的可用性和实用性. 相似文献
5.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。 相似文献
6.
聚类算法是数据挖掘的核心技术,本文提出了评价聚类算法好坏的标准,基于这个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法。 相似文献
7.
大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原理与优缺点,并对这些算法的进一步优化进行了分析。 相似文献
8.
聚类算法是数据挖掘中的核心技术 ,虽然聚类算法已被广泛深入的研究 ,但其应用在数据挖掘领域时间不长 ,其间产生了许多不同的适用于数据挖掘的聚类算法 ,但这些算法仅适用于特定的问题及用户 .为了更好的使用这些算法 ,综合提出了评价聚类算法好坏的 5个标准 ,基于这 5个标准 ,对数据挖掘中近几年提出的常用聚类方法作了比较分析 ,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法 相似文献
9.
聚类算法是数据挖掘中的核心技术,虽然聚类算法已被广泛深入的研究,但其应用在数据挖掘领域时间不长,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户.为了更好的使用这些算法,综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法. 相似文献
10.
经典的固定网格划分算法是CLIQUE算法,在高维的大数据集上聚类效果较好,但是因网格单元采用硬化分的缺陷,导致了其效率和聚类质量不够高。而基于统计学的网格划分技术能充分考虑数据集分布特征,且能识别任意形状和大小的聚类。 相似文献
11.
全方位的对各类聚类算法进行总结和归纳,并且对一些在特殊领域中应用聚类算法进行深度解析,然后从以下三个部分,算法思想,关键技术以及算法特点等方面进行基本概括,对一些代表性的聚类算法进行比较分析以及聚类算法新领域研究的展望,这对将来聚类发展具有重大意义. 相似文献
12.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。 相似文献
13.
本文介绍了用数据挖掘技术来处理大量数据,并得到可靠且有效数据挖掘结果的方法。同时对使用到的决策数算法进行了深入的研究分析。 相似文献
14.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 相似文献
15.
在大数据时代,概念漂移检测技术用于解决数据流的动态性问题,还存在不足之处.为此,该文基于概念漂移检测算法对大数据下数据流聚类挖掘算法进行优化,提出了改进的FKNN模型算法,解决了算法中的需要专家及运算效率比较低下以及采样密度必须足够大或者说维度比较低的难题. 相似文献
16.
对近年来k-means算法的研究现状与进展进行总结.首先对较有代表性的初始聚类中心改进的算法,从思想、关键技术和优缺点等方面进行分析.其次选用知名数据集对典型算法进行测试,主要从就同一个数据集不同改进算法的聚类情况进行对比分析,为聚类分析和数据挖掘等研究提供有益的参考. 相似文献
17.
数据挖掘领域中的聚类方法 总被引:4,自引:0,他引:4
王美华 《南华大学学报(自然科学版)》2004,18(1):58-62
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法. 相似文献
18.
孟海涛 《盐城工学院学报(自然科学版)》2006,19(4):68-70
提出了一种新的文档特征提取方法,将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权,不仅解决了维度偏高的问题,而且突出了重点特征词,提高了聚类的速度和精度。 相似文献
19.
数据挖掘技术中聚类算法的探索与研究 总被引:1,自引:0,他引:1
文章在对各种聚类算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法深入研究的基础上,提出了一种改进基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此适合对大规模数据的挖掘。 相似文献
20.
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率. 相似文献