首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于后缀树的中文网页层次聚类方法
引用本文:史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报(自然科学版),2006,25(6):890-892.
作者姓名:史庆伟  赵政  朝柯
作者单位:1. 天津大学,计算机学院,天津,300072;辽宁工程技术大学,软件学院,辽宁,葫芦岛,125105
2. 天津大学,计算机学院,天津,300072
3. 阜新市气象局,辽宁,阜新,123000
基金项目:国家自然科学基金资助项目(90604013)
摘    要:为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。

关 键 词:Web挖掘  层次聚类  Web搜索  后缀树
文章编号:1008-0562(2006)06-0890-03
修稿时间:2005年10月12

Hierarchical clustering of Chinese web pages based on suffix tree
SHI Qing-wei,ZHAO Zheng,CHAO Ke.Hierarchical clustering of Chinese web pages based on suffix tree[J].Journal of Liaoning Technical University (Natural Science Edition),2006,25(6):890-892.
Authors:SHI Qing-wei  ZHAO Zheng  CHAO Ke
Abstract:In order to facilitate users browsing web search results produced by search engines,a new method called STCC algorithm is proposed,which combines STC algorithm and chameleon algorithm to group similar Chinese web pages in a hierarchical fashion.This method employs Jaccard coefficient to modify the similarity measure of base cluster in STC,then according to the similarity matrix of base cluster,chameleon algorithm is used to cluster web pages.Experimental results show that the precision in STCC increases by nearly ten percent compared with that in STC,meanwhile,chain effect in single-link algorithm can be avoided by using STCC algorithm,and it is suitable for large scale web pages clustering.
Keywords:web mining  hierarchical clustering  web search  suffix tree
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号