首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展,用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。  相似文献   

2.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

3.
个性化搜索引擎研究的目的是使搜索结果尽可能满足不同用户的信息需求,而排序算法在搜索引擎技术中占有着核心的地位.提出了一种基于改进的DBSCAN聚类的个性化排序算法,在全文搜索包Lucene与开源搜索引擎Nutch的基础上,实验证明该方法提高了用户搜索的准确率和召回率.  相似文献   

4.
刘洋 《科技信息》2009,(36):171-172
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出在中文分词上的改进。  相似文献   

5.
基于Nutch的搜索引擎技术   总被引:1,自引:0,他引:1  
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.  相似文献   

6.
Nutch-0.9中JE中文分词的实现   总被引:1,自引:0,他引:1  
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。  相似文献   

7.
面向语义搜索的推荐模型研究   总被引:2,自引:1,他引:1  
随着Web信息量的不断增多,人们不得不花费大量时间去搜索、浏览和选择自己需要的信息,改善和提升搜索引擎信息检索的能力已经越来越迫切.提出基于专家用户搜索历史的信息推荐模型,并重点介绍普通用户和专家用户Profile以及基于此的2个计算模型.在此基础上结合Nutch搜索引擎平台,开发面向语义搜索的推荐系统,实际使用证明推荐效果良好.  相似文献   

8.
王巧玲  彭静  王春红 《科技信息》2011,(19):I0038-I0039
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。  相似文献   

9.
梁晟  熊莎 《科技信息》2011,(32):I0122-I0122
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。  相似文献   

10.
搜索引擎网络提供者的法律定位是法律上的一个难点。本文拟以网络服务提供者与网络内容提供者的区别与联系为切入点,对搜索引擎网络提供者"搜索链接"与"搜索下载"两大搜索行为进行分析。搜索引擎网络提供者的法律定位应当根据搜索引擎网络提供者在某一具体的搜索引擎网络活动中的"搜索行为"进行分析与判断。  相似文献   

11.
多元搜索引擎能够有效利用多个搜索引擎的搜索与集成资源能力.搜索代理是其中一个核心组件.在介绍多元搜索引擎的基本结构的基础上,分析了搜索代理的作用,给出了采用Socket编程方法的实现代码.  相似文献   

12.
图像搜索是下一代搜索引擎迫切需要解决的课题,在对图像搜索引擎的主要功能和关键技术进行了分析和讨论的基础上,详细剖析了图像搜索引擎设计中任务分析、解决方案、感受哈希算法、实现等关键过程,并实现了一个基于灰度值分类的图像搜索引擎。实际试验表明,本图像搜索引擎的搜索速度较快、性能稳定,具有较好的搜索效果。  相似文献   

13.
图像搜索是下一代搜索引擎迫切需要解决的课题,在对图像搜索引擎的主要功能和关键技术进行了分析和讨论的基础上,详细剖析了图像搜索引擎设计中任务分析、解决方案、感受哈希算法、实现等关键过程,并实现了一个基于灰度值分类的图像搜索引擎。实际试验表明,本图像搜索引擎的搜索速度较快、性能稳定,具有较好的搜索效果。  相似文献   

14.
基于Ajax的聚合搜索系统   总被引:1,自引:0,他引:1  
随着Internet的发展,人们对于信息的需求与日俱增。而且,人们倾向于应用多个搜索引擎以获取更全面、准确的信息。因此,作为崭新的搜索方式,将各大搜索引擎集中到一个平台的聚合搜索开始备受关注。针对这种应用趋势,文章介绍一个基于Ajax的聚合搜索系统的实现过程,它以百度、Google、雅虎、爱问、搜狗、中搜6大搜索引擎作为搜索源,利用正则表达式匹配搜索结果,最终给用户呈现一个整洁的搜索结果。  相似文献   

15.
讨论了智能专题搜索引擎的相关设计和实现,通过信息搜索技术、自然语言理解技术、语义网络技术以及数据挖掘技术的引入,改进了传统搜索引擎的搜索结构,进而采用这些技术实现了一个专题搜索的实例。  相似文献   

16.
基于校园网的中文搜索引擎系统   总被引:2,自引:0,他引:2  
在存有海量信息的互联网上高效地搜索信息,搜索引擎是必不可少的.介绍了一个基于校园网的中文搜索引擎的设计与实现.  相似文献   

17.
搜索引擎通过网页搜索软件查询互联网上的链接,访问网络公开域中的每一个站点,将它们的网址带回搜索引擎,同时给web页上的文本建立索引,从而创建出一个详尽的网络目录。由于网络文档的不断变化,搜索软件也不断地更新以前已经分类的目录。搜索引擎目前广泛应用于网络资源搜索和商业智能系统。  相似文献   

18.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了搜索的准确性.  相似文献   

19.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检 索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需 要并提升了搜索的准确性.  相似文献   

20.
研究了普通搜索引擎技术特点和实现过程,系统地分析比较研究基于主题改进爬虫程序算法,设计实现一个能更好地满足用户不同搜索需求的主题搜索引擎,该搜索引擎具有科学性、高效性、实用性、易操作性等优点.使用本搜索引擎,对多个大型网站进行查询搜索,通过实验数据对比,结果表明,该引擎的数据查全率和查准率都高于普通搜索引擎,具有较高的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号