首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。  相似文献   

2.
为了能够实时、高效地获取Twitter数据,在分析了传统采集方法的缺陷后,提出了基于Twitter List API和Lookup API的用户数据采集方案。该方案通过对用户进行分类,进而精确控制API的调用频率。经在超过26万Twitter用户和600万条消息的一系列实验证明,通过两套方案的结合可以实现Twitter用户数据高效实时的获取。  相似文献   

3.
微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。  相似文献   

4.
微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持.  相似文献   

5.
分析了J2ME手机客户端程序采用轻量级数据格式JSON来实现与微博的数据交换。JSON与XML相比,简洁高效,方便生成和解析。微博API逐步开放,使得J2ME访问微博更容易。文中以新浪微博API为例介绍了其中update接口的URL访问格式和返回JSON数据的格式,并列举了J2ME发送Http请求及解析响应的JSON数据的关键代码,实现了与微博的数据交换。  相似文献   

6.
目的研究新浪微博数据采集问题。方法利用新浪微博API接口和本文设计的网络爬虫模型进行数据采集。结果与结论实验证明两种方法都可以在较短时间内收集到较多用户资料,但在过滤去重方面,本文设计的算法在时间上更为高效。  相似文献   

7.
研究的方向是让人们在看微博的同时,可以通过微博来实现监控指定地点。监控系统是以树莓派为核心,安装树莓派官方摄像头,通过调用新浪微博API,模拟登陆自己注册的微博帐号,将新浪微博作为客户端来实现监控,另外,还将该微博账号设计成微博机器人,实现自动回复评论,并能监控树莓派CPU温度以及网络连接情况,在指定时间发布微博。  相似文献   

8.
在移动互联网技术的发展下,新媒体应运而生且迅速发展,其特点呈现出与传统媒体时代不同的特质,新媒体面向的对象大众化,内容多样丰富化,信息传递飞速化,其中新浪微博作为典型的新媒体平台,除了搭建起熟人、半熟人的沟通渠道外,也可被陌生人所关注,涉及领域范围广且还能够实现互动交流,具有高效开放性。近年来,创业类意见领袖纷纷将新浪微博作为传播的渠道,他们的言论行为都在某种程度上影响着粉丝们,进而推动创业教育和创业学习的发展。本文选取10位创业类意见领袖(Key Opinion Leader, KOL),对他们近五年新浪微博发文内容及发文量,更新频率、关注点等行为特征进行研究,对其微博数据进行量化分析,发现创业类意见领袖的特征有所差异,并针对大学生和创业者提出利用新浪微博进行创业学习的建议。  相似文献   

9.
近日,新浪微博与中网(knet.cn)的“可信网站”验证合作正式上线。今后网站通过中网“可信网站”验证后.如果选择开通新浪官方微博,可以快速获得机构认证,实现一次认证跨平台应用。目前,新浪微博的注册用户已突破3亿。中网与新浪微博建立合作后.通过中网“可信网站”验证网站,在开通新浪官方微博的同时可以获得新浪微博机构认证实现了一次认证全网通用,  相似文献   

10.
数字     
《华东科技》2010,(12):6-8
5000万 11月16日,新浪召开微博开发者大会。在大会上,新浪发布了针对开发者的一系列扶持策略,承诺其平台将全面开放。同时宣布携手五大顶级风投,正式启动中国微博开发者创新基金。据了解,  相似文献   

11.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

12.
传统的Web包装器语言通过单一的路径表示方法对数据在HTML页面中的位置进行定位。当页面的变化超出其容忍范围时,只能由人工或者智能程序重新生成包装器脚本。本文提供了一种基于交叉定位的数据定位方法,当HTML页面发生变化时,在包装器层次上实现包装器脚本的自我修复。实验结果表明,使用交叉定位的Web包装器在没有降低信息抽取性能的情况下,大幅提高了包装器脚本对HTML页面变化的容忍度。  相似文献   

13.
The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages.  相似文献   

14.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

15.
介绍了并行检索技术、服务器集群检索技术、网页资源深度挖掘技术、检索数据库共享技术等常用技术,使读者对异构数据资源统一检索技术有相对系统的了解。  相似文献   

16.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础.  相似文献   

17.
发布商在互联网上发布自己的内容供其他远程客户端调用,用户通过无刷新Web远程过程调用技术很方便地实现此功能;本技术在远程调用方面和Web Service比有操作简单、无须动态网页编程经验、不需要刷新整个页面等诸多好处。  相似文献   

18.
基于正则式的CNKI网页全自动包装器   总被引:1,自引:0,他引:1  
当数据源的查询和访问能力受到限制时,如何设计与实现自动化的网页包装器是一个值得研究和需要解决的问题.分析了CNKI网页的结构,描述了网页元素的标记与内容特征,给出了一组匹配CNKI网页内容的正则式,并用Visual C^++实现了一个包装器.实际应用结果表明,基于正则式匹配方法的全自动包装器可以精确抽取CNKI网页的全部检索内容.  相似文献   

19.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号