基于STC的中文文本聚类算法 |
| |
作者姓名: | 王国强 郑海清 牛军钰 |
| |
作者单位: | 上海市杨浦区业余大学,上海,200092;复旦大学计算机科学与工程系,上海,200433 |
| |
摘 要: | 提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.
|
关 键 词: | 后缀树 文本聚类 文本处理 |
文章编号: | 1000-5137(2006)05-0021-06 |
收稿时间: | 2006-05-20 |
修稿时间: | 2006-05-20 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《上海师范大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《上海师范大学学报(自然科学版)》下载全文 |
|