集群式智能型网络信息自动搜寻与采集系统 |
| |
作者姓名: | 王宇 |
| |
作者单位: | 上海交通大学信息与控制工程系 |
| |
摘 要: | 互联网上分布的许多用于搜集网络信息的WebSpiders(网络爬虫)一般都工作在单机上,难以快速完成大规模的信息采集工作.对此提出了一种集群式Spider系统的构想,它能够使许多Spider工作在不同的主机上完成同一项任务(每个Spider负责一部分,可动态调整),因此可大大加速信息采集工作.文中描述了这种系统的体系结构与模型,并介绍了该系统的一种实现,即ChinaWebWizard.它不仅可以在集群模式下工作,还能动态地发现新的站点.该系统为搜索引擎提供了底层支持,对网点建设者和开发者具有参考价值.
|
关 键 词: | 搜索引擎;网络爬虫;集群式;HTTP服务器 |
本文献已被 CNKI 维普 等数据库收录! |
|