首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于站点资源的主题提取算法
引用本文:郭立山,董守斌,袁华.基于站点资源的主题提取算法[J].清华大学学报(自然科学版),2005,45(9):1738-1742.
作者姓名:郭立山  董守斌  袁华
作者单位:华南理工大学,广东省计算机网络重点实验室,广州,510640
基金项目:中国教育科研网格计划ChinaGrid资助项目
摘    要:传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.

关 键 词:网络信息挖掘  主题提取  超链接分析
文章编号:1000-0054(2005)S1-1738-05
修稿时间:2005年5月23日

Topic distillation algorithm based on site resource
GUO Lishan,DONG Shoubin,YUAN Hua.Topic distillation algorithm based on site resource[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1738-1742.
Authors:GUO Lishan  DONG Shoubin  YUAN Hua
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号