首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Heritrix在电子信息垂直搜索平台中的应用
引用本文:赵永鑫,雷霖.Heritrix在电子信息垂直搜索平台中的应用[J].成都大学学报(自然科学版),2013,32(2):156-158.
作者姓名:赵永鑫  雷霖
作者单位:西华大学数学与计算机学院,四川成都610039;成都大学电子信息工程学院,四川成都610106;成都大学电子信息工程学院,四川成都,610106
基金项目:四川省科技基础条件平台资助项目
摘    要:介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Hefifirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源.

关 键 词:Heritrix  ELFHash算法  多线程  电子信息  垂直搜索引擎

Application of Heritrix in Vertical Search Platform of Electronic Information
ZHAO Yongxin , LEI Lin.Application of Heritrix in Vertical Search Platform of Electronic Information[J].Journal of Chengdu University (Natural Science),2013,32(2):156-158.
Authors:ZHAO Yongxin  LEI Lin
Institution:1.School of Mathematics and Computer Engineering,Xihua University,Chengdu 610039,China;2.School of Electronic and Information Engineering,Chengdu University,Chengdu 610106,China)
Abstract:This paper mainly introduces the basic concepts of the vertical search engine and web crawler, and describes the architecture of Heritrix system, The Heritrix workflow is analyzed. Aiming at some imper- fections in Heritirx, our project designs how to grab directionally a certain type of information. The ELFHash algorithm is introduced. The multi-threaded crawl of information in the telecommunications information search platform is realized by extending the Heritrix to provide information source for the establishment of a vertical search enghae for electronic information.
Keywords:Heritrix  ELFHash algorithm  multi-threaded  electronic information  vertical search engine
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号