首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。  相似文献   

2.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

3.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

4.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

5.
设计并实现了一种通用的具有高可靠性和可扩展性的分布式网络数据抓取系统.给出了服务器和抓取节点的执行算法,并利用实时数据库Influx DB和可视化框架Grafana设计了抓取节点的性能监控系统.利用系统可以跟据需求对互联网的数据进行快速地抓取和收集.  相似文献   

6.
大数据数字媒体时代带来很多新技术,包含数据挖掘技术、数据分析、分布式存储、扩展存储和云计算等,为大数据的运用和发展提供有效的技术保障。大数据时代下的精准招商需要对各个参与企业的运营状况、经营范围、发展趋势、资产结构等要素进行分析对比、评判,努力根据区域产业发展和企业投资需求的切入点,找出跟该阶段招商引资最匹配的企业。网络爬虫技术是按照特定招商需求,自行抓取相对应URL内容的技术,本文利用基于Python语言的Scrapy框架中对异步处理出色的Twisted架构,对采集招商企业数据会更加稳定、准确和快捷。  相似文献   

7.
8.
介绍了分布式爬虫系统的背景、需求和实现目标,提出分布式爬虫系统的结构及任务调度策略,核心思想是以总控式的分布式结构设计整个爬虫系统,任务调度策略上采用二次Hash算法对把URL发送到指定附属机上机型爬行抓取。通过主控服务器和附属服务器的任务分工,多机协同合作,提高爬行整个网络的效率。  相似文献   

9.
针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基础上设计了校园网搜索引擎的系统架构,给出了系统的网页抓取模块、索引检索模块、页面展示模块的关键实现技术。最后通过实验验证,相比于传统的通用搜索引擎,该文设计的校园网搜索引擎的搜索结果相关性更好,数量更多,对于校园网内新信息的收录情况更好。  相似文献   

10.
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接.  相似文献   

11.
以PPLive为代表的各种P2P多媒体应用的兴起给因特网带来了巨大的负担,为了解决它所造成的网络管理和维护的困难,从深入分析PPLive通信协议入手,根据其节点信息报文的格式构造爬虫程序从而获取当前网络中PPLive节点的地址和端口信息,并基于爬虫提出了一个分布式的PPLive流实时检测系统.通过试验对系统检测方法的正确性以及实时性进行了测试.试验结果表明,该系统能够准确和高效地检测出网络中的PPLive流.  相似文献   

12.
针对现有的高速网络环境下,网络安全分析框架缺乏协议还原过程,导致准确性差和整体架构不易扩展的问题,提出一个基于Storm的协议还原框架.该框架使用高性能数据包捕获工具抓取数据包,并且基于其上实现分布式的实时网络流量处理模块,完整地还原了网络会话.此外通过使用内存管理和基于树状布隆过滤器的传输控制协议(TCP)还原策略提高其系统运行效率及准确率.最后通过验证得出:该系统可以实现万兆流量的捕获及采集,扩展性良好,易于在大规模集群中部署,而且准确率高.  相似文献   

13.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

14.
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率.  相似文献   

15.
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.  相似文献   

16.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

17.
垂直搜索中网页抓取技术的研究   总被引:1,自引:0,他引:1  
陈哲 《科技信息》2009,(22):I0182-I0182
网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。  相似文献   

18.
集群式智能型网络信息自动搜寻与采集系统   总被引:2,自引:0,他引:2  
互联网上分布的许多用于搜集网络信息的WebSpiders(网络爬虫)一般都工作在单机上,难以快速完成大规模的信息采集工作.对此提出了一种集群式Spider系统的构想,它能够使许多Spider工作在不同的主机上完成同一项任务(每个Spider负责一部分,可动态调整),因此可大大加速信息采集工作.文中描述了这种系统的体系结构与模型,并介绍了该系统的一种实现,即ChinaWebWizard.它不仅可以在集群模式下工作,还能动态地发现新的站点.该系统为搜索引擎提供了底层支持,对网点建设者和开发者具有参考价值.  相似文献   

19.
当今时代,愈发庞大的数据难以有效处理运用和管理,需要一种更加合适的资源获取处理方式。该文基于大数据架构结合网络爬虫、数据清洗、信息检索等前沿技术,设计开发了地震科普知识资源库系统。其中运用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技术。通过网络爬虫和人工上传的方式采集地震科普相关信息资源,经过数据清洗转换后对信息资源进行自动分类,最后将资源上传至资源库hdfs分布式文件系统并将文件信息保存至Elasticsearch分布式文件索引系统,由此实现大数据架构下的全文检索。同时,建立资源库的后台管理系统,用于网站的日常管理和维护。相比以前的集群文件系统更加高速便捷、更加的安全稳定。  相似文献   

20.
通过对综合排序方法TOPSIS法的研究,实现了一个将马氏距离及最差理想解相结合改进TOPSIS法的出租房源推荐系统,该系统通过分布式爬虫模块抓取各大租房网站的出租房源信息,存入MongoDB数据库中,利用Spring boot框架读取MongoDB中的出租房源数据,调用将马氏距离和最差理想解相结合改进的TOPSIS法对出租房源数据进行综合评价,评价过程依据出租房源数据的面积、租金、通过经纬度求得的距离属性和输入的目标地点进行计算和决策.此后,将评价的最终结果以排序分组的形式显示在高德地图图标上,租房者点击图标会显示该出租房源的具体数据信息,输入的目地点后会出现相应距离和乘车路线及时长.点击图标上方的具体房源信息,则会跳转到相应租房网站.该系统满足了侧重点不同的租房群体查找出租房源信息的需求,具有很高的实用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号