首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

2.
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息.  相似文献   

3.
目的针对百度和360等通用搜索引擎搜索旅游信息速度不够快、不准确和分类不明确的缺点,设计和实现了一个面向游客查找旅游信息的网络爬虫,给出了该网络爬虫所采用的自适应垂直搜索算法.方法基于领域本体,建立相应的知识模型和查询模型,并在基于知识模型和查询模型的基础上设计一个综合查询方法,拓展所需要查询的信息.结果设计了一种自适应旅游信息垂直搜索算法和相应的网络爬虫,并用软件实现了该网络爬虫.用设计的网络爬虫对辽宁省公园、辽宁省儿童公园和辽宁省森林公园进行的搜索,采用自适应算法搜索时,Per(用户搜索百分比)为92%,采用基于网页内容的URL选取算法搜索时,Per为82%.对吉林省旅游景点、吉林省公园和吉林省森林公园进行的搜索,采用自适应算法搜索时,Per为91%,采用基于网页内容的URL选取算法搜索时,Per为80%.与经典的搜索方法相比,搜索结果更准确,分类效果更好.结论所设计的垂直搜索算法对旅游信息的搜索是有效的,在查询的准确率和信息的分类上都有一定的提高和改进.  相似文献   

4.
蔡笑伦 《科技信息》2010,(12):26-26,28
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,阐述了网络爬虫技术的搜索策略,展望新一代搜索引擎的发展趋势。  相似文献   

5.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

6.
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。  相似文献   

7.
基于图像内容检索的主题爬虫设计方法   总被引:2,自引:2,他引:0  
图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方法进行图像的特征提取与特征匹配。最后提出了优化爬虫的方法,改进爬虫的搜索策略,提高了爬虫的搜索效率。  相似文献   

8.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

9.
 随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.采用何种策略有效地访问网络资源是搜索引擎研究的主题.主要对搜索引擎中涉及的Web知识树的结构及设计方法进行了介绍.  相似文献   

10.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

11.
智能桌面元搜索引擎中个性化研究   总被引:1,自引:0,他引:1  
随着WWW信息量的急剧膨胀,当前的搜索引擎已经不能够很好的满足人们信息搜索的需求,元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.本文针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,同时最后给出总结和展望.  相似文献   

12.
基于分类和聚类相结合的个性化检索方法研究   总被引:1,自引:0,他引:1  
目前检索工具的设计大多面向所有用户,而没有考虑到用户个人的兴趣,导致查准率较低。由此提出一种基于分类和聚类相结合的个性化信息检索方法。该方法首先利用聚类技术,对用户的历史浏览记录进行聚类,产生一个初步的用户兴趣分类,然后根据ODP对用户兴趣分类进行调整得到最终的用户兴趣分类,并利用该分类对传统搜索引擎返回的结果进行分类,以产生有意义的分类搜索结果。该方法克服了单独利用分类或聚类技术的局限性,提高了搜索引擎的可用性。  相似文献   

13.
介绍面向侨务信息主题搜索引擎的工作原理和体系结构,根据侨务信息的特征对网页进行侨务信息的识别.针对主题式搜索,提出一种优化的,基于历史反馈(BHF)的搜索策略,并对该搜索策略进行实验测试.结果表明,以该方法设计的面向侨务信息主题的搜索引擎系统,具有较高的搜索速度与识别精度.  相似文献   

14.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

15.
介绍了利用搜索引擎来检索网络生物信息的方法和技巧,同时提供了一些重要的生物信息资源和非常实用的专业站点。  相似文献   

16.
信息网络技术使得信息传输冲破了空间和时间限制,对社会产生了前所未有的冲击.在培养学生创造知识和整合知识的过程中,寻求一种采用新技术适应新需求的教学新模式成为当务之急.本文介绍以Searching Engine和Blog为实现技术的基于Read/Write Web的教学模式,并探讨此种教学模式对教学主要参与者的影响.  相似文献   

17.
介绍了"网络迷航"现象及WEB数据挖掘技术,讨论了网站用户浏览行为及获得用户浏览行为模式的方法,构建了模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间.  相似文献   

18.
静态Web服务器是专门用于提供静态网站访问服务的Web服务器,与动态Web服务器相比,能够为静态网站提供更高的访问效率和安全性,还能够让静态网站的内容更多地被搜索引擎收录以提高网站的广告收入 本文从实际应用需求出发,设计一个安全、高效、易用的静态Web服务器来提高网站运营效率和效益.本设计通过提高服务器安全验证来保障服务器安全,设置资源池来提高服务器性能,提供最简单灵活的配置功能来增加服务器的易用性.  相似文献   

19.
介绍了网上视频文件的格式、内容和特点,陈述了通过搜索引擎、P2P软件、ftp服务、网页搜索、视频数据库等途径查找视频文件的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号