首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于MapReduce的并行子空间聚类算法
引用本文:董家鸣,潘懋,张弛.基于MapReduce的并行子空间聚类算法[J].科学技术与工程,2017,17(15).
作者姓名:董家鸣  潘懋  张弛
作者单位:北京大学地球与空间科学学院信息地质研究实验室,北京大学地球与空间科学学院信息地质研究实验室,北京大学地球与空间科学学院信息地质研究实验室
摘    要:随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。

关 键 词:子空间聚类  并行聚类  MapReduce  高维数据
收稿时间:2016/10/25 0:00:00
修稿时间:2016/10/25 0:00:00

Parallel Subspace Clustering using MapReduce
Abstract:
Keywords:subspace clustering  parallel clustering  MapReduce  high dimensional data
本文献已被 CNKI 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号