首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。  相似文献   

2.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

3.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

4.
利用基于校园网的搜索引擎来搜索学校局域网内的信息已成为人们关注的热点,一方面是因为校园网内信息量不断增加,利用搜索引擎可以提高搜索效率;另一方面是因为由于网络设计的限制,百度等搜索引擎搜索不到局域网内的很多信息.在研究搜索引擎基本原理和技术的基础上,设计了基于Lucene的校园网搜索引擎.测试表明,本系统能很好地完成用户的搜索要求.  相似文献   

5.
针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基础上设计了校园网搜索引擎的系统架构,给出了系统的网页抓取模块、索引检索模块、页面展示模块的关键实现技术。最后通过实验验证,相比于传统的通用搜索引擎,该文设计的校园网搜索引擎的搜索结果相关性更好,数量更多,对于校园网内新信息的收录情况更好。  相似文献   

6.
随着互联网信息多样化和爆炸式的发展,人们面临着"信息迷航"和"信息过载"的困扰;当代社会对信息检索的需求不仅仅局限在通用搜索引擎,更需要针对特定领域设计出个性化搜索引擎。通过分析研究网络搜索引擎的组成结构及利用Lucene构建搜索引擎的方法,在Lucene原有网页排序算法基础上,结合PageRank算法的思想和用户喜好权重,提出更具个性化的网页排序算法,以反馈给用户符合其个性化需求的搜索结果。在.Net开发平台,利用C#语言,结合几种开源API,完成了个性化网络搜索引擎系统的设计与实现。系统界面设计采用了XAML及Ajax技术,搜索结果显示模块采用异步传输技术,使用户界面更加友好。通过测试和分析,系统实现了个性化搜索,用户不翻页也可以查看全部搜索内容,用户的体验度得到了提升。下一步将增加爬虫对于网络错误信息的处理及对于病毒网站的过滤功能。  相似文献   

7.
利用"百度"搜索网络信息资源   总被引:3,自引:0,他引:3  
在利用互联网的过程中,选择一个比较优秀的搜索引擎是能够更全、更快、更准地收集网络信息。介绍了“百度”搜索引擎的功能、特点和使用方法以及利用“百度”搜索网络信息资源的技巧。  相似文献   

8.
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。实现了教育资源的共享,具有较高的应用价值。  相似文献   

9.
文章立足于校园网络应用的信息搜索,首先分析了通用搜索引擎运用于校园网络的不足,然后引入了网络书签,将Web 2.0的分享理念贯彻到校园搜索引擎的构建中,并使用PageRank类似机制实现搜索结果的排序,达到了良好的效果.  相似文献   

10.
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节.实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性.实现了教育资源的共享,具有较高的应用价值.  相似文献   

11.
基于网页分块技术主题爬行器的实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎搜索到的结果过多、 与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上.  相似文献   

12.
互联网是知识和信息的海洋,但许多朋友甚至许多经常使用网络的朋友,都不知该如何快速而准确地利用搜索引擎来获取网络上的信息。本文试从搜索引擎的基础知识,使用方法,高效使用及特殊使用方法等几方面,对如何利用搜索引擎获取网络信息做了阐述。  相似文献   

13.
网络灰色信息多属于互联网上离散分布的半公开化潜在数据资源,通过总结网络灰色信息的价值性与综合特征可知,依靠常规搜索引擎较难获得可用性高的灰色信息资源集。为获取更宽泛的网络灰色信息存在轨迹,提出了以广度优先搜索为主的信息爬取技术架构并建立索引数据库,在此基础上,将语义相似度与置信度约束融入主题关联二次搜索,以获得理想挖掘结果;网络信息流强度概念的引入,揭示出网络媒体资源对社会决策的影响程度,并在股票涨跌幅与网络关注度的关联实例中得到验证。  相似文献   

14.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

15.
蔡笑伦 《科技信息》2010,(12):26-26,28
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,阐述了网络爬虫技术的搜索策略,展望新一代搜索引擎的发展趋势。  相似文献   

16.
为加强对互联网以及社交媒体的恐怖主义信息的甄别和处理,利用数据的爬取和分析甄别,分类恐怖主义信息。通过scrappy 框架以及gensim 工具包对数据进行爬取,得到了4 个数据集,并且进行LDA( Latent Dirichlet Allocation) 主题模型的建立,分别得到恐怖主义信息传播在4 个不同领域中的主题分类,以及主题间的关系。实验表明,通过爬取可以有效鉴别出不同的恐怖主义信息主题,以及其在传播中的作用。  相似文献   

17.
针对通用搜索引擎在当前网络搜索应用中出现的搜索结果冗余度过大、信息定位不准确的问题,对垂直搜索引擎进行了研究,剖析了通用搜索引擎和垂直搜索引擎的体系结构,比较了两者的工作流程和搜索结果进行,利用垂直搜索引擎专注于某一领域从而降低了"一词多义"现象的特性,有效提高了查全率和查准率。针对垂直搜索引擎在无法满足不同用户的个性化需求方面的不足,分析了垂直搜索引擎的个性化信息检索和推荐技术,然后从实际应用出发,设计和实现了基于用户和文档特征向量矩阵的个性化检索和推荐算法。  相似文献   

18.
搜索引擎发展方向   总被引:3,自引:0,他引:3  
介绍了互联网上搜索引擎的发展情况,从搜索引擎技术专业化、个性化、智能化3方面分析了搜索引擎发展方向,并设想更完美的搜索联引擎技术的未来.  相似文献   

19.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

20.
基于校园网的中文搜索引擎系统   总被引:2,自引:0,他引:2  
在存有海量信息的互联网上高效地搜索信息,搜索引擎是必不可少的.介绍了一个基于校园网的中文搜索引擎的设计与实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号