首页 | 本学科首页   官方微博 | 高级检索  
     

集群式智能型网络信息自动搜寻与采集系统
作者姓名:王宇
作者单位:上海交通大学信息与控制工程系
摘    要:互联网上分布的许多用于搜集网络信息的WebSpiders(网络爬虫)一般都工作在单机上,难以快速完成大规模的信息采集工作.对此提出了一种集群式Spider系统的构想,它能够使许多Spider工作在不同的主机上完成同一项任务(每个Spider负责一部分,可动态调整),因此可大大加速信息采集工作.文中描述了这种系统的体系结构与模型,并介绍了该系统的一种实现,即ChinaWebWizard.它不仅可以在集群模式下工作,还能动态地发现新的站点.该系统为搜索引擎提供了底层支持,对网点建设者和开发者具有参考价值.

关 键 词:搜索引擎;网络爬虫;集群式;HTTP服务器
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号