首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
目前的搜索引擎大多数是面向所有信息的,已不能满足特定用户更深入的查询需求.而聚焦爬虫的应用可实现特定用户的特 定查询要求.可实现高效、快捷的、针对性强的查询.  相似文献   

2.
蔡笑伦 《科技信息》2010,(12):26-26,28
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,阐述了网络爬虫技术的搜索策略,展望新一代搜索引擎的发展趋势。  相似文献   

3.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

4.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

5.
网络爬虫技术研究   总被引:3,自引:0,他引:3  
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分.介绍网络爬虫的分类、工作原理及存在的问题,并对主题爬虫进行了详细设计,最后总结了设计高性能网络爬虫需要解决的技术难题.  相似文献   

6.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

7.
李豫山 《科技信息》2014,(12):10-11
如何从存有海量数据的万维网上以最快的速度找到所需要的信息,成为我们所要研究的问题。对于这种主题信息获取的需求,传统的通用搜索引擎显然达不到这样的要求,为了克服通用搜索引擎这种缺陷,提出了主题搜素引擎的概念,也就是聚焦搜索引擎。而对于网站站长,如何让用户更快找到自己的网站信息,如何提高搜索引擎优化策略,也是他们所要解决的问题。本文基于这两个问题,阐述了聚焦爬虫原理,结合聚焦搜索引擎的工作原理提出了提高搜索引擎优化策略。  相似文献   

8.
在校园网已经成为Internet一部分的今天,构建和谐校园网,不仅需要对校园网内部进行有效的管理,同时还需要动态掌握Internet上的信息,避免不良信息入侵校园为校园管理带来安全隐患.研究了如何通过主题网络爬虫技术实现高校网络信息动态搜索和监控,方便网络管理者及时、有针对性地获取互联网上的相关信息.  相似文献   

9.
网络爬虫的结构设计研究   总被引:1,自引:0,他引:1  
王军  彭建 《科技信息》2007,(27):96-97
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,Spider网络爬虫的爬行效率对搜索引擎至关重要。本文对搜索引擎进行了相关介绍,概述了Spider的结构框架、在爬行不同阶段的各个状态等。  相似文献   

10.
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.  相似文献   

11.
频繁的磁盘I/O操作导致多线程Web图像搜索器的性能显著下降,为此提出一种磁盘I/O缓冲方法,它包括待采URL的双队列缓冲和图像存储与URL存储中的循环缓冲池等2种措施.在URL待采队列中采用双队列缓冲,当其中一个队列处于使用状态时,另一队列执行从磁盘读取新URL的操作,使得各个线程可以不间断地获取URL.2个循环缓冲池分别用于图像和URL磁盘存储操作中,其工作原理相同.实验结果显示,磁盘I/O缓冲方法显著改善了多线程Web图像搜索器的性能.  相似文献   

12.
一种高性能分布式Web Crawler的设计与实现   总被引:4,自引:0,他引:4  
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.  相似文献   

13.
陈丽君 《科技资讯》2009,(16):21-21
传统网络爬虫只处理页面中的超链接,而忽略了大量有价值的深层网搜索表单。本文设计了一个表单检测器用于检测搜索表单,介绍了其功能模块及具体实现,最后用实验验证该检测器的有效性。  相似文献   

14.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。  相似文献   

15.
基于概念树的主题搜索机器人系统研究   总被引:3,自引:0,他引:3  
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化.设计与实现了一个主题搜索机器人原型。  相似文献   

16.
基于Web智能的网络广告监测器研究与设计   总被引:2,自引:0,他引:2  
为了解决网络广告投放效果监测困难的问题,基于网络广告的搜索引擎和网络爬虫等Web智能技术,设计了一种独立的、第三方的网络广告监测器,描述了当前网络广告的发展现状、系统的结构模块设计、时序调度设计以及相应的系统实现方案和核心算法。通过实验评测表明,该系统能够取得较好的效果。  相似文献   

17.
提出了一种基于移动代理的图像搜索引擎(MAISE,Mobile Agent based Image Search Engine)的爬虫系统,系统中爬虫代理运行在远程Web服务器上,它将集中在服务器端的任务如:特征提取、建立索引等分散到远程的Web服务器上并行运行,而且代理个数是可控的,最后将少量的数据回传到服务器端,这不仅提高了效率而且减小了网络传输量.最后对MAISE爬虫系统进行了测试,实验结果表明,MAISE爬虫的网络数据传输量和爬行时间等指标上均优于传统爬虫.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号