首页 | 本学科首页   官方微博 | 高级检索  
     

基于coroutine模型的网络爬虫设计与实现
作者姓名:仇晶  丁任霜  张光华  张红斌
作者单位:广州大学网络空间先进技术研究院;河北科技大学信息科学与工程系
摘    要:
网络爬虫在中文信息处理中被大量使用,根据待处理的问题定向爬取相关领域的数据,为后续中文信息处理提供基础.传统多线程模型在处理高并发和大量I/O阻塞操作时,存在较为明显的限制和不足.针对以上问题,提出了一种基于coroutine模型的解决方案.从coroutine的基本原理和实现方法上作了较为详细的阐述,并给出基于coroutine网络爬虫的完整实现.实验表明,该方案能够有效地降低系统负荷,提高爬虫的爬取效率.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号