首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

2.
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息.  相似文献   

3.
网络爬虫技术研究   总被引:3,自引:0,他引:3  
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分.介绍网络爬虫的分类、工作原理及存在的问题,并对主题爬虫进行了详细设计,最后总结了设计高性能网络爬虫需要解决的技术难题.  相似文献   

4.
基于概念分析的主题爬虫设计   总被引:1,自引:0,他引:1  
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础.  相似文献   

5.
蔡笑伦 《科技信息》2010,(12):26-26,28
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,阐述了网络爬虫技术的搜索策略,展望新一代搜索引擎的发展趋势。  相似文献   

6.
网络爬虫的结构设计研究   总被引:1,自引:0,他引:1  
王军  彭建 《科技信息》2007,(27):96-97
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,Spider网络爬虫的爬行效率对搜索引擎至关重要。本文对搜索引擎进行了相关介绍,概述了Spider的结构框架、在爬行不同阶段的各个状态等。  相似文献   

7.
在校园网已经成为Internet一部分的今天,构建和谐校园网,不仅需要对校园网内部进行有效的管理,同时还需要动态掌握Internet上的信息,避免不良信息入侵校园为校园管理带来安全隐患.研究了如何通过主题网络爬虫技术实现高校网络信息动态搜索和监控,方便网络管理者及时、有针对性地获取互联网上的相关信息.  相似文献   

8.
邓焕根 《广东科技》2014,(6):155-156,154
互联网技术的迅速发展,使得其在当今社会中承载传递的信息日趋增大,在给人们的生活带来方便的同时,也给相关领域的网络舆情管理工作带来了一定压力。爬虫技术是互联网搜索引擎通过一定的指令性程序,对网页进行信息提取技术,是当前有针对性地进行舆情的基础要素。以网络爬虫技术在舆情分析中的应用为中心展开讨论,介绍了互联网舆情检索技术的基本构成,分析了爬虫技术的特点,提出了优化网络爬虫技术的相关方案,同时通过实例进行了验证,具有一定的借鉴价值。  相似文献   

9.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

10.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

11.
12.
利用用户指定的关键字和搜索引擎生成URL种子,通过分布式网络爬虫抽取符合用户需求的网页作为研究所用的语料.实验结果表明:分布式网络爬虫可以较好地解决在短时间内抽取大量语料的需求.  相似文献   

13.
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.  相似文献   

14.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

15.
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。  相似文献   

16.
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.  相似文献   

17.
大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快。python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程。本文对几种爬虫技术进行了比较,提出了一种新的基于scrapy开源框架的改进爬虫算法,在主题相关性分析中采用基于贝叶斯分类器的算法,在解析网页中结合dom树的分块算法,对scrapy框架下的url过滤和去重进行优化,对特定目标中相关的网页内容进行了爬取,经过实验表明,查准率有了提高,耗时缩短了,总体来说,改进后的算法优于之前的算法。  相似文献   

18.
主题爬虫的解决方案   总被引:6,自引:0,他引:6  
对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集.  相似文献   

19.
对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.  相似文献   

20.
本文讨论网络舆情的概念、特点及其信息获取技术,详细分析了网络舆情信息采集技术和信息抽取技术并提出展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号