首页 | 本学科首页   官方微博 | 高级检索  
     检索      

聚焦爬虫爬行性能研究
引用本文:黄昊晶.聚焦爬虫爬行性能研究[J].科技资讯,2011(21):13-14.
作者姓名:黄昊晶
作者单位:[1]广东水利电力职业技术学院计算机信息工程系,广州510635;[2]苏州大学智能信息处理及应用研究所,江苏苏州215006
基金项目:广东水利电力职业技术学院中青年科研基金项目-Deep Web数据源发现与聚焦爬虫研究;项目
摘    要:爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。

关 键 词:爬虫  DNS  URL分配  分布式爬行
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号