首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

2.
为了解决传统的基于上下文图形爬行模型爬取效率低、特征词提取不精确的问题,本文采用了在现有的技术支持上,融入机器学习算法的思想,设计并实现了一种改进的基于主题的爬虫算法,结果表明该算法是有效的.  相似文献   

3.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min.  相似文献   

4.
在移动互联网用户行为分析系统中,为了使深度包检测(deep packet inspection,DPI)进行有效地数据匹配,对用户行为进行更深层次的分析,达到不仅能识别出业务网站类型而且还识别出业务网站访问具体内容的目标,设计出一种能进行具体内容级别上特征爬取和提炼的爬虫模块.针对特定业务网站,考虑广义爬取对技术和存储要求高的缺点以及针对某一行业的爬虫系统得到数据有限的不足,设计并实现了一种基于特定页面分析的聚焦爬虫模块.该爬虫模块采用模块化的思想,使用多线程多任务,精确高效地爬取特定业务网站信息,为DPI匹配提供数据支持.经过测试验证,该爬虫模块达到了预期的要求,可维护性、可扩展性和实时性强,满足移动互联网用户行为分析系统对特征数据提取的需求.  相似文献   

5.
在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块:页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。  相似文献   

6.
为解决现有长白山景点旅游数据不够集中、缺乏有效利用问题,通过合理制定基于Python的网络爬虫,实现了对部分旅游网站长白山旅游数据的爬取,并利用Tableau工具对数据进行可视化分析,从多个维度精准挖掘旅游人数与各个因素之间的潜在关系,得到了更为直观的效果,有利于趋势分布的观察,为长白山地区进一步制定合理的旅游策略奠定了基础.  相似文献   

7.
立足于对高校网络这一校内主要舆论平台的监控的实际需要,结合中文信息处理领域中网络爬虫、网页除噪、特征提取、文本分类等技术,给出了一种高校网络舆情监控系统的实现方案,并通过实验验证了系统的有效性.  相似文献   

8.
介绍了当前的几种常用Web测试生成技术,提出了基于爬虫的Web测试生成技术,设计并实现了Web测试生成系统,该系统可以自动化完成爬取目标Web应用、处理分析爬取结果、生成测试用例、执行测试用例的功能,并且系统执行过程中输出的分析结果和测试用例可以被其他相关系统如测试覆盖分析系统利用。  相似文献   

9.
目的针对百度和360等通用搜索引擎搜索旅游信息速度不够快、不准确和分类不明确的缺点,设计和实现了一个面向游客查找旅游信息的网络爬虫,给出了该网络爬虫所采用的自适应垂直搜索算法.方法基于领域本体,建立相应的知识模型和查询模型,并在基于知识模型和查询模型的基础上设计一个综合查询方法,拓展所需要查询的信息.结果设计了一种自适应旅游信息垂直搜索算法和相应的网络爬虫,并用软件实现了该网络爬虫.用设计的网络爬虫对辽宁省公园、辽宁省儿童公园和辽宁省森林公园进行的搜索,采用自适应算法搜索时,Per(用户搜索百分比)为92%,采用基于网页内容的URL选取算法搜索时,Per为82%.对吉林省旅游景点、吉林省公园和吉林省森林公园进行的搜索,采用自适应算法搜索时,Per为91%,采用基于网页内容的URL选取算法搜索时,Per为80%.与经典的搜索方法相比,搜索结果更准确,分类效果更好.结论所设计的垂直搜索算法对旅游信息的搜索是有效的,在查询的准确率和信息的分类上都有一定的提高和改进.  相似文献   

10.
通过研究对比不同网络爬虫策略的优缺点,提出了基于微博信息的关键词库爬虫策略,利用微博的特性以及数据挖掘算法的优势,生成关键词库指导爬虫模型进行微博信息的获取,解决了主题爬虫模型在数据获取时存在的时序性、正确性以及高效性的问题,提高了微博事件信息的覆盖率和准确率,最后通过设计实验系统Keys Crawler,验证了本文提出的策略的优越性.  相似文献   

11.
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。  相似文献   

12.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

13.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

14.
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.  相似文献   

15.
确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构建近义词资源,实现了藏文词义相似度计算系统,最终构建一种基于相似度计算的实体关系模板获取模型.通过网络爬虫抓取青海湖藏文网的语料进行试验,实验结果表明本文提出的藏文实体关系模板抽取方法较为有效,达到了较好的实验效果.  相似文献   

16.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

17.
民宿产业是乡村旅游的主要产业之一,发展民宿产业对带动旅游业经济发展、推动老区居民增收、发展乡村振兴具有非常重要意义。采用网络爬虫技术爬取江西省十一个地级市民宿销售数据,运用统计学方法从全域视角分析江西省民宿产业发展现状,综合比对线性模型、树模型、集成模型在民宿价格预测上的性能,实证显示,集成方法拥有最小的MSE,具有较高的预测精度。  相似文献   

18.
针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法.首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用支持向量机实现商品个性化推荐.以智能手机商品为例进行实验分析,结果表明,所提方法能获得98%以上...  相似文献   

19.
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。  相似文献   

20.
基于用户群的智能主题爬虫   总被引:1,自引:1,他引:0  
提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号