首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Twitter数据采集方案研究
引用本文:房伟伟,李静远,刘悦,余智华,曹鹏,张凯.Twitter数据采集方案研究[J].山东大学学报(理学版),2012,47(5):73-77.
作者姓名:房伟伟  李静远  刘悦  余智华  曹鹏  张凯
作者单位:1. 中国科学院计算技术研究所,北京100190/中国科学院研究生院,北京100190
2. 中国科学院计算技术研究所,北京,100190
基金项目:国家信息安全专项项目(2010F032);国家“八六三”高技术研究发展计划基金项目(2010AA012500);自然科学基金重点项目(60933005)
摘    要:为了能够实时、高效地获取Twitter数据,在分析了传统采集方法的缺陷后,提出了基于Twitter List API和Lookup API的用户数据采集方案。该方案通过对用户进行分类,进而精确控制API的调用频率。经在超过26万Twitter用户和600万条消息的一系列实验证明,通过两套方案的结合可以实现Twitter用户数据高效实时的获取。

关 键 词:Twitter  List  API  Lookup  API  数据采集

Research of Twitter data collection
FANG Wei-wei,LI Jing-yuan,LIU Yue,YU Zhi-hua,CAO Peng,ZHANG Kai.Research of Twitter data collection[J].Journal of Shandong University,2012,47(5):73-77.
Authors:FANG Wei-wei  LI Jing-yuan  LIU Yue  YU Zhi-hua  CAO Peng  ZHANG Kai
Institution:1 (1.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China; 2.Graduate University of Chinese Academy of Sciences,Beijing 100190,China)
Abstract:In order to achieve real-time and efficient access to the data of Twitter,two different methods based on Twitter List API and Lookup API were presented after analyzing the shortcomings of traditional collection methods.By classi-fying users,this method can precisely control the frequency of calling API.A series of experiments on over 260,000 users and over 6 million messages were carried out,and the results show that the combination of the two methods can be efficiently used to collect Twitter data in real-time.
Keywords:Twitter  List API  Lookup API  data collection
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号