首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于簇特征的文本增量聚类研究
引用本文:潘敏,王明文,王晓庆,揭安全.基于簇特征的文本增量聚类研究[J].江西师范大学学报(自然科学版),2014,0(1):95-101.
作者姓名:潘敏  王明文  王晓庆  揭安全
作者单位:江西师范大学计算机信息工程学院,江西南昌,330022
基金项目:国家自然科学基金(60963014);江西省自然科学基金(20114BAB201037)资助项目
摘    要:提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.

关 键 词:增量聚类  文本聚类  中心矩  簇特征

A Research on the Text Incremental Clustering Based on Cluster Features
PAN Min,WANG Ming-wen,WANG Xiao-qing,JIE An-quan.A Research on the Text Incremental Clustering Based on Cluster Features[J].Journal of Jiangxi Normal University (Natural Sciences Edition),2014,0(1):95-101.
Authors:PAN Min  WANG Ming-wen  WANG Xiao-qing  JIE An-quan
Abstract:A text incremental clustering algorithm based on cluster features has been presented.Firstly,initial clustering is performed by making full use of simple and efficient k-means algorithm.Secondly,the clustering center,mean,variance,the number of document,the third central moment and the fourth central moment are saved as the cluster features of each cluster.Finally,when new documents occur,they are incrementally clustered with those cluster features.The experimental results on 20newsgroups data set demonstrate that the algorithm the paper presents has some advantages.
Keywords:incremental clustering  text clustering  central moment  cluster features
本文献已被 CNKI 等数据库收录!
点击此处可从《江西师范大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《江西师范大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号