首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Hefifirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源.  相似文献   

2.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

3.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

4.
李豫山 《科技信息》2014,(12):10-11
如何从存有海量数据的万维网上以最快的速度找到所需要的信息,成为我们所要研究的问题。对于这种主题信息获取的需求,传统的通用搜索引擎显然达不到这样的要求,为了克服通用搜索引擎这种缺陷,提出了主题搜素引擎的概念,也就是聚焦搜索引擎。而对于网站站长,如何让用户更快找到自己的网站信息,如何提高搜索引擎优化策略,也是他们所要解决的问题。本文基于这两个问题,阐述了聚焦爬虫原理,结合聚焦搜索引擎的工作原理提出了提高搜索引擎优化策略。  相似文献   

5.
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具。目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低。本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高。  相似文献   

6.
基于SVM预测的金融主题爬虫   总被引:2,自引:2,他引:0  
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高.  相似文献   

7.
图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方法进行图像的特征提取与特征匹配。最后提出了优化爬虫的方法,改进爬虫的搜索策略,提高了爬虫的搜索效率。  相似文献   

8.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

9.
通过研究对比不同网络爬虫策略的优缺点,提出了基于微博信息的关键词库爬虫策略,利用微博的特性以及数据挖掘算法的优势,生成关键词库指导爬虫模型进行微博信息的获取,解决了主题爬虫模型在数据获取时存在的时序性、正确性以及高效性的问题,提高了微博事件信息的覆盖率和准确率,最后通过设计实验系统Keys Crawler,验证了本文提出的策略的优越性.  相似文献   

10.
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接.  相似文献   

11.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

12.
蔡笑伦 《科技信息》2010,(12):26-26,28
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,阐述了网络爬虫技术的搜索策略,展望新一代搜索引擎的发展趋势。  相似文献   

13.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

14.
主题爬虫的解决方案   总被引:6,自引:0,他引:6  
对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集.  相似文献   

15.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

16.
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.  相似文献   

17.
该文通过对大学生学术信息资源利用情况的调查与分析,提出了加强大学生学术信息资源利用的基本策略:加大信息检索课教学环境投入的力度;加强学术信息资源利用基本策略的教学.指出了学术信息资源的主要检索工具是全文数据库、数字图书馆、开放存取、学术搜索引擎、学科主题指南等.  相似文献   

18.
随着互联网信息多样化和爆炸式的发展,人们面临着"信息迷航"和"信息过载"的困扰;当代社会对信息检索的需求不仅仅局限在通用搜索引擎,更需要针对特定领域设计出个性化搜索引擎。通过分析研究网络搜索引擎的组成结构及利用Lucene构建搜索引擎的方法,在Lucene原有网页排序算法基础上,结合PageRank算法的思想和用户喜好权重,提出更具个性化的网页排序算法,以反馈给用户符合其个性化需求的搜索结果。在.Net开发平台,利用C#语言,结合几种开源API,完成了个性化网络搜索引擎系统的设计与实现。系统界面设计采用了XAML及Ajax技术,搜索结果显示模块采用异步传输技术,使用户界面更加友好。通过测试和分析,系统实现了个性化搜索,用户不翻页也可以查看全部搜索内容,用户的体验度得到了提升。下一步将增加爬虫对于网络错误信息的处理及对于病毒网站的过滤功能。  相似文献   

19.
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。  相似文献   

20.
随着网络资源的不断丰富,人们获取信息的途径已被网络代替。维吾尔文,在语言信息处理,WEB应用等领域有了迅速的发展。文章针对网络爬虫的工作原理以及聚焦爬虫策略进行阐述,在此基础上结合维吾尔语信息提取的相关研究,研究了维吾尔文的网络爬虫技术的结构和策略,从而为维吾尔文搜索引擎的网页数据库建设和维吾尔文网络舆情分析研究提供海量的语料。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号