首页 | 本学科首页   官方微博 | 高级检索  
     

基于用户群的智能主题爬虫
引用本文:赵燕,陈晓云,莫明辉,汤勇. 基于用户群的智能主题爬虫[J]. 广西师范大学学报(自然科学版), 2007, 25(2): 230-233
作者姓名:赵燕  陈晓云  莫明辉  汤勇
作者单位:兰州大学,信息科学与工程学院,甘肃,兰州,730000;兰州大学,信息科学与工程学院,甘肃,兰州,730000;兰州大学,信息科学与工程学院,甘肃,兰州,730000;兰州大学,信息科学与工程学院,甘肃,兰州,730000
摘    要:
提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。

关 键 词:用户群  网页对偶筛选  知识库  主题爬虫  相关度
文章编号:1001-6600(2007)02-0230-04
收稿时间:2006-12-15
修稿时间:2006-12-15

Intelligent Topic Crawler Based on Users Community
ZHAO Yan,CHEN Xiao-yun,MO Ming-hui,TANG Yong. Intelligent Topic Crawler Based on Users Community[J]. Journal of Guangxi Normal University(Natural Science Edition), 2007, 25(2): 230-233
Authors:ZHAO Yan  CHEN Xiao-yun  MO Ming-hui  TANG Yong
Affiliation:School of Information Science and Engineering ,Lanzhou University ,Lanzhou 730000 ,China
Abstract:
A Community-Specific Intelligent Topic Crawler is introduced.This system mines the Web logs of community,which results in corresponding knowledge base.With the guidance of the knowledge base and multi-layer selective strategy,CITC fetch relevant pages selectively.The experiment shows that this system can fetch relevant pages efficiently based on the interest of user community.
Keywords:users community  page dual filter  knowledge base  topic crawler  relevancy
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号