首页 | 本学科首页   官方微博 | 高级检索  
     检索      

分布式网页搜集系统的设计与实现
引用本文:张亮,王纯.分布式网页搜集系统的设计与实现[J].北京工商大学学报(自然科学版),2009,27(1).
作者姓名:张亮  王纯
作者单位:北京邮电大学网络与交换技术国家重点实验室,北京,100876;东信北邮信息技术有限公司,北京,100083
基金项目:国家杰出青年科学基金资助项目,国家973计划项目,电子信息产业发展基金资助项目 
摘    要:对北大天网实验室发布的搜索引擎Tiny Search Engine的原理进行分析,指出其在实际应用过程中的一些缺陷,并针对这些缺陷对软件体系结构加以改进,增加主控模块,实现了一种可扩展的分布式网页搜集系统.

关 键 词:搜索引擎  分布式系统  宽度优先搜索  URL权重

DESIGN AND IMPLEMENTATION OF DISTRIBUTED WEB-CRAWLING SYSTEM
ZHANG Liang,WANG Chun.DESIGN AND IMPLEMENTATION OF DISTRIBUTED WEB-CRAWLING SYSTEM[J].Journal of Beijing Technology and Business University:Natural Science Edition,2009,27(1).
Authors:ZHANG Liang  WANG Chun
Institution:1;2;1;2;1.State Key Lab of Networking and Switching Technology;Beijing University of Posts and Telecommunications;Beijing 100876;China;2.EBUPT Information Technology Co.Ltd.;Beijing 100083;China
Abstract:In this paper,the auther analyzed the principle of Tiny Search Engine,an experimental search engine provided by the Net Lab of Beijing University,and indicate some drawbacks in practical deployment.Finally it added a new module,control module in this system to reform the drawbacks in its architecture and achieved an expandable distributed web-crawling system.
Keywords:search engine  distributed system  breadth first search  URL weight  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号