首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 217 毫秒
1.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。  相似文献   

2.
随着网络的发展,用户对搜索引擎的要求越来越高,Lucene是一个用Java写的全文索引引擎工具包,可以方便的嵌入到各种应用程序中,与传统的搜索引擎相比,它更快捷、更准确的实现全文索引/检索功能。  相似文献   

3.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了搜索的准确性.  相似文献   

4.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检 索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需 要并提升了搜索的准确性.  相似文献   

5.
Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。  相似文献   

6.
基于Lucene的搜索引擎在远程教育平台中的实现   总被引:1,自引:0,他引:1  
在现代远程教育平台上应用一个好的搜索引擎可以使用户高效的搜索到自己需要的资料.本文简要介绍了基于Java的全文检索包Lucene,然后介绍了为了对课件资源库中各种类型的文档进行搜索而基于Lucene开发的搜索引擎.  相似文献   

7.
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑.  相似文献   

8.
个性化搜索引擎研究的目的是使搜索结果尽可能满足不同用户的信息需求,而排序算法在搜索引擎技术中占有着核心的地位.提出了一种基于改进的DBSCAN聚类的个性化排序算法,在全文搜索包Lucene与开源搜索引擎Nutch的基础上,实验证明该方法提高了用户搜索的准确率和召回率.  相似文献   

9.
深入剖析了全文检索引擎Lucene的排序算法,针对Lucene排序算法中只考虑了网页自身的内容,没有考虑网页间的关系的现状,提出了一个基于链接分析的Lucene排序算法。我们在Lucene的排序算法的基础上加入PageRank算法,算法中考虑网页点击信息和时间反馈因素,实现网页根据浏览点击率和网页文档的新旧程度,其PR值也随之上下浮动,并采用Sei-del迭代算法加速算法迭代收敛过程。实验结果表明,新的排序算法可以有效地提高Lucene全文检索应用的查准率和Ranking指标。  相似文献   

10.
为在网络数据中搜索到所需相关数据, 通过对基于后缀数组的全文索引结构的改进研究, 设计和实现一种降低空间占用率并有效提高索引速度的全文索引结构加权有向词图。通过实验证明, 加权有向词图在相同问题规模下能降低存储空间, 同时不影响检索的效率, 是一种更为高效的全文索引结构。  相似文献   

11.
对目前流行的全文检索技术——基于Lucene引擎的全文检索和SQLServer附带的全文检索功能组件Microsoft Search进行了分析研究,实现相应的检索接口,封装为Web服务且集成到使用面向服务架构的分布式仿真资源库中.通过相关性能测试,验证了全文检索接口封装为Web服务并应用于面向服务架构的可行性,结果表明基于Lucene的检索服务总体性能优于基于Microsoft Search的检索服务.  相似文献   

12.
介绍开放源代码的全文检索引擎工具包Lucene的系统结构和实现机制,分析Lucene的组织结构及全文检索的分词的相关方法后,给出Lunene在全文检索领域中的应用方式。  相似文献   

13.
随着信息技术的发展,国家电网公司亟待改变人工项目审核的现状,实现项目重复审核自动化。因此,提出了基于Lucene的全文检索技术在电力项目计划审核方面的应用方案。首先深入分析了国家电网公司的项目审核现状和全文检索技术的研究现状,其次简单介绍了全文检索技术和Lucene全文检索引擎的概念,然后详细介绍了全文检索过程;最后将全文检索技术引入电力企业项目计划审核,给出了一个基于全文检索的电力企业项目计划审核系统的架构设计。使用Lucene全文检索引擎进行企业专项项目重复审核,可以方便、快速地获得检索排序结果和文档相似度,并且检索准确度高。  相似文献   

14.
随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lucene索引段合并优化策略,该策略通过负载系数来选择不同的索引段合并操作。为提高数据的检索速度,进一步建立索引段相似度评价模型来选择出最优合并索引段集合进行合并。通过与现有Tiere,LogByte,LogDoc等合并策略进行实验对比,提出的优化策略能有效减少索引段合并次数,提升系统吞吐量及索引效率。  相似文献   

15.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。  相似文献   

16.
提出一种基于自然语言提问的自动答疑系统的设计思想,引入Lucene的全文检索模型.采用浏览器/服务器模式,设计并实现基于Lucene的自动答疑系统,通过对提问信息进一步的加工和提取,可实现浏览、搜索、提问等功能.该系统能够胜任一定领域内的,基于自然语言的自动答疑需求,并充分考虑了系统的开放性和可维护性的要求.然而,知识库还不具备自动学习功能,且对用户问题只进行简单的关键词拆分,没有进行语义分析,这使得系统还不具有完全的智能化特性.  相似文献   

17.
基于Lucene.Net框架,利用.NetRemoting技术,结合多种数据挖掘和推荐算法构建面向大规模文本数据的厦门人才网分布式全文检索与推荐系统.提出把大索引切割成小索引,采用多台服务器并行处理的分布式解决方案,完成招聘企业、职位、应聘人员信息的整合与聚集,实现信息的智能推荐.实验结果表明,本系统取得了较高的索引效率、较快的检索速度以及较为精准的推荐结果,并在实际应用中取得了良好的效果.  相似文献   

18.
介绍了利用Lucene结合Tika实现站点内容的全文检索设计的编程过程。用Tika获取文档的元数据以及文档内容的文本提取。用Lucene实现文档的索引创建和检索服务,结合实例详细分析了Lucene API的具体使用特点。利用Spring MVC实现搜索服务的Web访问处理。可对网站的HTML、PDF、word、PPT、mht等各种类型的文档提供统一的内容检索服务。在该论文研究基础上可建立个性化的内容搜索服务系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号