聚焦爬虫爬行性能研究 |
| |
引用本文: | 黄昊晶.聚焦爬虫爬行性能研究[J].科技资讯,2011(21):13-14. |
| |
作者姓名: | 黄昊晶 |
| |
作者单位: | [1]广东水利电力职业技术学院计算机信息工程系,广州510635;[2]苏州大学智能信息处理及应用研究所,江苏苏州215006 |
| |
基金项目: | 广东水利电力职业技术学院中青年科研基金项目-Deep Web数据源发现与聚焦爬虫研究;项目 |
| |
摘 要: | 爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。
|
关 键 词: | 爬虫 DNS URL分配 分布式爬行 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|