首页 | 本学科首页   官方微博 | 高级检索  
     

K-Canopy:一种面向话题发现的快速数据切分算法
引用本文:陈强,杜攀,陈海强,包秀国,刘悦,程学旗. K-Canopy:一种面向话题发现的快速数据切分算法[J]. 山东大学学报(理学版), 2016, 51(9): 106-112. DOI: 10.6040/j.issn.1671-9352.1.2015.057
作者姓名:陈强  杜攀  陈海强  包秀国  刘悦  程学旗
作者单位:1. 中国科学院网络数据科学与技术重点实验室, 中国科学院计算技术研究所, 北京 100190;2. 中国科学院大学, 北京 100190;3.中国信息安全测评中心, 北京 100085;4. 国家计算机网络与信息安全管理中心, 北京 100029
基金项目:国家重点基础研究发展计划(973计划)项目(2012CB316303,2013CB329602);国家高技术研究发展计划(863计划)项目(2014AA15204);国家自然科学基金青年项目(61303156);国家自然科学基金重点项目(61232010);欧盟FP7-PIRSES-GA-2012-318939;中国科学院重点部署项目(KGZD-EW-T03-2)
摘    要:针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。

关 键 词:话题发现  平衡能力  数据切分  海量数据  
收稿时间:2015-09-25

K-Canopy:a fast data segmentation algorithm for the topic detection
CHEN Qiang,DU Pan,CHEN Hai-qiang,BAO Xiu-guo,LIU Yue,CHENG Xue-qi. K-Canopy:a fast data segmentation algorithm for the topic detection[J]. Journal of Shandong University, 2016, 51(9): 106-112. DOI: 10.6040/j.issn.1671-9352.1.2015.057
Authors:CHEN Qiang  DU Pan  CHEN Hai-qiang  BAO Xiu-guo  LIU Yue  CHENG Xue-qi
Affiliation:1.CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100190, China;3. China Information Technology Security Evaluation Center, Beijing 100085, China;4. National Computer Network and Information Security Management Center, Beijing 100029, China
Abstract:This paper presented a pre-clustering algorithm for tasks of topic detection on big data. To support the parallelization of the successive topic detection task,the proposed algorithm was designed to segment the dataset according to the semantic association among data points as evenly and efficiently as possible. The experimental result shows that our proposed algorithm is effective at segmenting dataset while preserving semantic association inside data blocks, and is helpful for improving the efficiency and effectiveness of topic detection.
Keywords:topic detection  balance  big data  data segmentation  
本文献已被 CNKI 等数据库收录!
点击此处可从《山东大学学报(理学版)》浏览原始摘要信息
点击此处可从《山东大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号