首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapReduce的大规模文本聚类并行化
引用本文:武森,冯小东,杨杰,张晓楠. 基于MapReduce的大规模文本聚类并行化[J]. 北京科技大学学报, 2014, 0(10): 1411-1419
作者姓名:武森  冯小东  杨杰  张晓楠
作者单位:北京科技大学东凌经济管理学院,北京,100083
基金项目:国家自然科学基金资助项目,高等学校博士学科点专项科研基金资助项目,中央高校基本科研业务费专项资金资助项目
摘    要:建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.

关 键 词:云计算  文本  聚类  相似度

Parallel clustering of very large document datasets with MapReduce
WU Sen,FENG Xiao-dong,YANG Jie,ZHANG Xiao-nan. Parallel clustering of very large document datasets with MapReduce[J]. Journal of University of Science and Technology Beijing, 2014, 0(10): 1411-1419
Authors:WU Sen  FENG Xiao-dong  YANG Jie  ZHANG Xiao-nan
Affiliation:WU Sen;FENG Xiao-dong;YANG Jie;ZHANG Xiao-nan;Dongling School of Economics and Management,University of Science and Technology Beijing;
Abstract:
Keywords:cloud computing  documents  clustering  similarity
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号