首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web文本聚类的研究与实现
引用本文:贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报,2011(6):26-29.
作者姓名:贾丙静  吴长勤  葛华
作者单位:安徽科技学院理学院;
基金项目:安徽科技学院引进人才基金项目(ZRC2008176); 安徽省教育厅自然科学基金项目(KJ2009B121Z)
摘    要:Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。

关 键 词:Web文本聚类  分词  特征表示  特征选择  K-means算法

The Research and Implementation of Web Text Clustering
JIA Bing-jing,WU Chang-qin,GE Hua.The Research and Implementation of Web Text Clustering[J].Journal of Changchun Teachers College,2011(6):26-29.
Authors:JIA Bing-jing  WU Chang-qin  GE Hua
Institution:JIA Bing-jing,WU Chang-qin,GE Hua(School of Science,Anhui Science and Technology University,Fengyang 233100,China)
Abstract:Web text clustering,which is an automatic grouping process of text set,makes the texts have largest cluster similarity and smallest similarity between clusters.In this paper,we first propose a model of Web text clustering,then study the Web text clustering's key technologies deeply and discuss word segmentation,feature representation,feature selection,K-means algorithm etc.Finally,we implement this text clustering system.Experiments show that this approach has good clustering results.
Keywords:Web text clustering  word segmentation  feature representation  feature selection  K-means  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号