首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持.  相似文献   

2.
新浪微博数据挖掘方案   总被引:27,自引:0,他引:27  
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。  相似文献   

3.
目的研究新浪微博数据采集问题。方法利用新浪微博API接口和本文设计的网络爬虫模型进行数据采集。结果与结论实验证明两种方法都可以在较短时间内收集到较多用户资料,但在过滤去重方面,本文设计的算法在时间上更为高效。  相似文献   

4.
微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。  相似文献   

5.
为了能够实时、高效地获取Twitter数据,在分析了传统采集方法的缺陷后,提出了基于Twitter List API和Lookup API的用户数据采集方案。该方案通过对用户进行分类,进而精确控制API的调用频率。经在超过26万Twitter用户和600万条消息的一系列实验证明,通过两套方案的结合可以实现Twitter用户数据高效实时的获取。  相似文献   

6.
基于改进PageRank算法的微博用户影响力评估   总被引:1,自引:0,他引:1  
为筛选微博网络和消息传播中的意见领袖,综合分析微博用户属性、行为和微博消息的传播特性,把用户的影响力因素分为:用户潜在影响力和微博传播影响力,据此构建用户影响力评估指标.进而提出基于改进RankPage算法的微博用户影响力评估算法.通过采集新浪微博某一话题下的数据计算用户的影响力,验证了方法的有效性和合理性.  相似文献   

7.
通过研究对比不同网络爬虫策略的优缺点,提出了基于微博信息的关键词库爬虫策略,利用微博的特性以及数据挖掘算法的优势,生成关键词库指导爬虫模型进行微博信息的获取,解决了主题爬虫模型在数据获取时存在的时序性、正确性以及高效性的问题,提高了微博事件信息的覆盖率和准确率,最后通过设计实验系统Keys Crawler,验证了本文提出的策略的优越性.  相似文献   

8.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

9.
网页数据的采集主要是指采集网页中相关的文本、数据信息以及链接信息,该文分析网页数据采集中基本方法和工作原理,通过系统设计实现网页数据采集,并实现基于R语言利用RCurl包进行网络爬虫。  相似文献   

10.
微博,是当前重要的社会信息传播平台之一,具有易操作、传播快等特点,人们可以通过微博直接快速地表达对突发事件、公众人物、热门产品等的观点。为了利用海量微博信息,需要综合多种分析方法挖掘其潜在价值。综述了当前微博分析领域的研究现状,提出了自主研发的微博分析系统,探讨了未来微博分析的研究方向。首先,介绍了微博分析的主要技术方法,包括利用微博开放平台和利用网络爬虫技术。利用微博提供的开放接口,可以方便快捷地获取微博信息,如微博内容、用户评论、用户个人详情、粉丝数、关注数等。但也存在诸多限制,如每小时只能抓取有限次数、微博平台并不开放所有信息资源等。利用网络爬虫技术可以获取更多信息,如基于全网的网络爬虫的信息采集技术可以覆盖更广的范围,基于主题的网络爬虫的信息采集技术可以选择性爬取预先设定的主题等。其次,介绍了目前微博分析的热点问题,包括微博用户行为和微博内容两方面。微博用户行为分析包括:1)传播网络研究,利用Gephi等可视化工具,呈现出微博在传播过程中的传播路径、传播范围、关键转发节点等信息,可用于预测未来传播情况;2)传播因素研究,通过分析用户行为,揭示信息传播的可能原因;3)用户影响力分析,不同学者给出不同的度量方法,而要精准地评价用户影响力需要综合考虑多方面因素,如粉丝数、转发数、被提及数、回复、社会关系等。关于微博内容的分析包括:1)微博文本预处理,包括分词和去停用词2个步骤;2)微博热点话题发现,常用方法包括基于词频的统计方法和文本聚类方法,这两种方法都有利于提高发现热点话题的效果,但没有考虑到话题动态演变的特性;3)情感分析,也被称为观点挖掘,一直是微博研究领域的热点问题,可以利用微博表情图片抽取情感词,并结合构建语义词典和机器学习的方法对微博进行情感分类,最终判断微博情感极性,可用于舆情监控、商业预测和产品选择等方面。再次,提出了自主研发的微博分析系统——阅微,重点介绍了其情感分析、地域分布和传播图3个模块。情感分析模块,基于情感词典的方法对用户的评论内容进行情感分类;地域分布模块,提取参与用户的地理位置信息并加以统计分析,呈现出微博传播在全国范围内的分布情况;传播图模块,利用可视化手段展现微博信息的传播扩散情况,如转发关系、转发层级、转发范围等情况。最后,归纳全文,从技术和应用2个方面归纳微博分析的挑战问题:可从技术上突破微博接口资源限制,提高微博分析的效率和精准度;同时从微博应用方面发展事件监控、管理和商业方面的应用。  相似文献   

11.
有效挖掘微博空间中的话题意见领袖成为亟待解决的热点问题.针对这一问题,提出了基于LDA语义信息和HowNet知识库的短文本子话题分类算法.对分类后的微博从显式、隐式及用户等方面综合衡量微博的影响力,并根据层次分析法对多个因素进行科学地权值分配.实验结果表明,提出的方法较基于支持向量机的方法具有更好的效果,同时提出的影响力度量模型可以有效地挖掘出微博中的话题意见领袖.  相似文献   

12.
以网络爬虫方式获取新浪微博用户属性信息及微博内容数据,利用数据挖掘技术从中发现微博用户间的多种显式和隐式关系.在此基础上,提出一种基于半监督学习的用户兴趣匹配预测算法,参照仓室模型的传播个体状态划分方法,基于传播个体间的兴趣匹配度界定各状态之间的转移过程和转移概率,进而构建基于用户兴趣匹配的网络舆情传播模型.研究结果表明,该模型能够较好地描述社交网络中的舆情传播规律,重现网络舆情在社交网络中的真实传播过程链.  相似文献   

13.
为了从微博丰富的社会事件中自动生成故事脉络,设计了一个故事脉络自动生成系统.该系统具有以下特点:(1)基于微博传播影响力的代表性事件抽取;(2)提出用图卷积网络来分类事件簇,然后利用事件的时间信息构建故事脉络;(3)提供用户事件检索接口和故事脉络可视化展示.介绍了故事脉络生成系统的关键技术并在真实微博数据集上进行了实验...  相似文献   

14.
信息传播和用户影响力度量是目前微博研究的基础和热点方向。为了定量地研究用户影响力,提出基于用户消息传播范围的用户影响力量化定义,并给出用户影响力的计算方法。在真实数据集上对算法的验证结果显示,与其他用户影响力度量方法相比,本文提出的方法计算复杂性低、指标稳定性高,尤其适合于需要限定数据集、限定时间段的具体应用场景。  相似文献   

15.
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率.  相似文献   

16.
社交网络服务每天产生大量涉及众多话题的信息,并在影响力各异的用户群体推动下广泛传播。在IP(influence passivity)算法的基础上,提出了一种综合话题相似性与信息时效性的影响力用户发现算法EIP(extended influence-passivity)。该算法在转发网络上考虑用户间话题的相似性以及博文信息时效性,更加精准地建模和计算用户的影响力和消极性。基于新浪微博上爬取的约10万用户数据集上的实验验证,EIP影响力度量算法优于IP和TwitterRank等现有方法。  相似文献   

17.
近十年来,通过社交网络(如微博、推特)分享信息已经成为人们日常生活中不可缺少的一个环节,如何有效地预测信息传播的影响力成为社交网络研究中的重要课题,不论是识别病毒式营销和虚假新闻还是精确推荐和在线广告都有许多应用.目前,一些应用深度学习进行社交网络影响力预测的方法已经取得了一定进展,但在进行深度学习时仍会面临以下难点:用户通常具有不同的行为和兴趣并且他们同时通过不同的渠道进行互动;用户之间的关系难以检测和形式化表达.传统的社交网络影响力预测方法通过设计复杂的规则来手动提取用户及其所处网络的特征信息,这一方法的有效性严重依赖于设置规则的专业性,所以很难将某一领域的规则推广到其他领域的应用中去.基于深度神经网络模型,设计一种端到端的神经网络来学习用户的隐藏特征信息以预测其社交网络影响力.首先通过图嵌入的方式对用户的局部网络进行特征提取,然后将特征向量作为输入对图神经网络进行训练,从而对用户的社会表征进行预测.该方法的创新之处:运用图卷积和图关注方法,将社交网络中用户的特征属性和其所处局域网络特征相结合,大大提高了模型预测的精度.通过在推特、微博、开放知识图谱等数据集上的大量实验,证明该方法...  相似文献   

18.
微博转发是微博信息传播的重要途经.影响微博转发的因素主要是用户属性、微博内容、用户社交和用户兴趣.已有的微博转发预测模型仅考虑部分因素,实际上4个因素对用户转发行为都有影响,此外也应该关注预测模型的计算时间.基于此,提出一种基于混合特征和XGBoost算法的微博转发预测模型.首先根据4个因素分别提取用户特征、微博特征、社交特征以及兴趣特征;然后基于PageRank算法计算用户影响力,基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型和KL距离计算兴趣相似度,定义用户转发活跃度和用户交互影响力的计算公式;最后利用XGBoost算法构建预测模型,对转发预测进行分析.实验结果表明,新的预测方法在准确率和时间等评价指标上有较好的表现,同时也验证了综合考虑4个因素的重要性和有效性.  相似文献   

19.
针对社交网络用户个人信息难以获取、公开信息不完整、不通用甚至内容虚假的问题,选择了普适性强,且能客观、真实反映用户行为习惯的位置数据作为相似性分析依据,对新浪微博、滴滴打车进行位置数据采集,形成两个高价值且具有国内网民特色的数据集作为实验对象.提出了一种基于时间滑动窗口模型的轨迹相似性匹配算法,通过调整时间窗口和位置距离优化算法F值,实现不同网络平台用户的相似性分析.以对新浪微博和滴滴打车的用户位置数据为例进行验证,实验结果证明了地理位置为虚拟身份相似性判断的正相关影响因子,且判断相似性的平均F值超过90%.   相似文献   

20.
提出了一种基于CPIB接口的数据采集系统的设计和实现方案,并详细介绍了该数据采集系统的硬件结构、接口电路和软件设计.GPIB接口应用到数据采集系统中,提高了数据采集系统的可程控性,增强了系统的抗干扰能力和数据传输的可靠性.同时,基于GPIB接口的数据采集系统也大大降低组建自动测试系统的成本,提高了测试人员的工作效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号