首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进后缀树算法中英文聚类引擎的实现
引用本文:胡海龙,孙晨,赫枫龄,左万利. 基于改进后缀树算法中英文聚类引擎的实现[J]. 吉林大学学报(理学版), 2009, 47(2): 299-304
作者姓名:胡海龙  孙晨  赫枫龄  左万利
作者单位:1. 吉林大学 计算机科学与技术学院, 长春 130012; 2. 吉林大学 通讯工程学院, 长春 130012
基金项目:吉林省科技发展计划项目 
摘    要:提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进行实时交互式聚类是可行的.

关 键 词:后缀树  文本聚类  元搜索引擎  
收稿时间:2008-06-13

Implementation of Chinese and English Clustering Engine Based on Improved Suffix Tree Algorithm
HU Hai-long,SUN Chen,HE Feng-ling,ZUO Wan-li. Implementation of Chinese and English Clustering Engine Based on Improved Suffix Tree Algorithm[J]. Journal of Jilin University: Sci Ed, 2009, 47(2): 299-304
Authors:HU Hai-long  SUN Chen  HE Feng-ling  ZUO Wan-li
Affiliation:1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;2. College of Communication Engineering, Jilin University, Changchun 130012, China
Abstract:This paper presents an algorithm based on the improved suffix tree and interact-clustering idea.Hierarchical clustering for document title and summary is implemented by improved traditional suffix tree structure.Meanwhile,the interactive clustering is employed instead of traditional recursive algorithm.The algorithm is not related with language.Not only is it applicable to word-based English,but also it can deal effectively with character-based Chinese without dictionary-based Chinese word segmentation.Furt...
Keywords:suffix tree  text clustering  meta search engine  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《吉林大学学报(理学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号