首页 | 本学科首页   官方微博 | 高级检索  
     检索      

多策略融合的微博数据获取技术研究
引用本文:王培名,陈兴蜀,王海舟,王文贤.多策略融合的微博数据获取技术研究[J].山东大学学报(理学版),2019(5).
作者姓名:王培名  陈兴蜀  王海舟  王文贤
作者单位:四川大学计算机(软件)学院;四川大学网络空间安全学院;四川大学网络空间安全研究院
摘    要:微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号