首页 | 本学科首页   官方微博 | 高级检索  
     检索      

适用于大规模文本处理的动态密度聚类算法
引用本文:李霞,蒋盛益,张倩生,朱靖.适用于大规模文本处理的动态密度聚类算法[J].北京大学学报(自然科学版),2013,49(1):133-139.
作者姓名:李霞  蒋盛益  张倩生  朱靖
作者单位:1. 广东外语外贸大学外国语学及应用语言学研究中心, 广州 510420; 2. 广东外语外贸大学思科信息学院, 广州 510006;
基金项目:国家自然科学基金(61070061);国家社会科学基金(12BYY045);教育部人文社会科学研究青年基金(11YJCZH086,12YJCZH281);广东省高层次人才项目(粤教师函[2010]79号)资助
摘    要:针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。

关 键 词:文本挖掘  聚类  海量数据  动态密度  
收稿时间:2012-06-06

A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing
LI Xia,JIANG Shengyi,ZHANG Qiansheng,ZHU Jing.A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1):133-139.
Authors:LI Xia  JIANG Shengyi  ZHANG Qiansheng  ZHU Jing
Institution:1. National Key Research Center for Linguistics and Applied Linguistics, Guangdong University of Foreign Studies, Guangzhou 510420; 2. Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006;
Abstract:Because of the high time complexity and complicated parameter setting in traditional density-based clustering algorithm, a new density definition is proposed, which just needs one parameter and can find clusters with different densities. The authors also expand the algorithm to a two-stage dynamic density-based clustering algorithm, which can process large-scale text corpus data. Experiments on synthetic dataset, large-scale dataset from UCI, English text corpus and Chinese text corpus show that TSDDBCA algorithm has the characteristic of easy parameter setting and high clustering efficiency, and can be applied to clustering process to large-scale text data.
Keywords:text mining  clustering  large-scale data  dynamic density  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号