可扩展的DHT网络爬虫设计和优化 |
| |
引用本文: | 周模,张建宇,代亚非.可扩展的DHT网络爬虫设计和优化[J].中国科学:信息科学,2010(9):1211-1222. |
| |
作者姓名: | 周模 张建宇 代亚非 |
| |
作者单位: | 北京大学区域光纤通信网与新型光通信系统国家重点实验室;北京大学计算机科学技术研究所 |
| |
基金项目: | 国家重点基础研究发展计划(批准号:2004CB318204);国家自然科学基金(批准号:60873051);国家高技术研究发展计划(批准号:2007AA01Z154)资助项目 |
| |
摘 要: | KAD网络是目前基于实际应用的一个最大的DHT网络,针对KAD网络的测量成为研究实际DHT的很好途径.各种针对覆盖网络的基于主动和被动的测量研究也正逐步展开,在主动测量中,网络爬虫是一项很重要的基础工作.通常,这类爬虫从一个起始的已知节点集开始扫描,然后通过迭代式地查询来获取更多的节点信息.设计爬虫的时候通常希望达到3个性能方面的目标:尽快完成对一个已知的节点集的扫描,尽可能抓取到更多的节点信息,尽量减少网络带宽的占用.由于这些目标之间存在互相制约关系,单纯优化其中的一项性能可能降低其它性能.文中提出了一个基本的DHT网络爬虫的框架,并提出基于该框架上可能的扩展,充分利用覆盖网络中的拓扑结构,对爬虫各部分工作的权重进行调整,从而降低爬虫总的工作量,达到对以上目标的优化.
|
关 键 词: | DHT 爬虫 网络测量 |
本文献已被 维普 等数据库收录! |
|