基于coroutine模型的网络爬虫设计与实现 |
| |
作者姓名: | 仇晶 丁任霜 张光华 张红斌 |
| |
作者单位: | 广州大学网络空间先进技术研究院;河北科技大学信息科学与工程系 |
| |
摘 要: | 网络爬虫在中文信息处理中被大量使用,根据待处理的问题定向爬取相关领域的数据,为后续中文信息处理提供基础.传统多线程模型在处理高并发和大量I/O阻塞操作时,存在较为明显的限制和不足.针对以上问题,提出了一种基于coroutine模型的解决方案.从coroutine的基本原理和实现方法上作了较为详细的阐述,并给出基于coroutine网络爬虫的完整实现.实验表明,该方案能够有效地降低系统负荷,提高爬虫的爬取效率.
|
本文献已被 CNKI 等数据库收录! |
|