首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,便于嵌入各种应用。本研究对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应中文信息技术发展的需求等方面进行了新的探索。  相似文献   

2.
介绍开放源代码的全文检索引擎工具包Lucene的系统结构和实现机制,分析Lucene的组织结构及全文检索的分词的相关方法后,给出Lunene在全文检索领域中的应用方式。  相似文献   

3.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。  相似文献   

4.
通过分析基于单字或词的全文检索方法,讨论衡量信息检索速度的一个重要指标———系统最长检索时间.针对中文海量信息,提出了一个基于任意字串的快速全文检索算法.  相似文献   

5.
倒排索引压缩及在RDBMS全文检索中的实现   总被引:2,自引:0,他引:2  
提出了一种对倒排索引进行压缩的方法,在保证较高压缩率的前提下,对压缩后的数据提供了随机访问的能力.这种方法将压缩后的数据分为两部分,第一部分用来表示单词在子区间的出现次数,第二部分用来表示单词在子区间的具体出现位置,详细描述了检索过程,通过第一部分的信息可以直接对第二部分的任意位置进行解压缩,体现了其随机访问能力,并分析了压缩比和检索效率,讨论了该压缩方法在RDBMS全文检索中的实现,以及如何用表格形式对其进行存储,针对多关键字的检索对算法进行了优化.该实现方法一方面充分利用了数据系统的优点,获得了良好的动态性能,另一方面节省了倒排索引对空间的需求,并提高了检索效率.  相似文献   

6.
梁晟  熊莎 《科技信息》2011,(32):I0122-I0122
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。  相似文献   

7.
实现了中文单字切分模块,并在Lucene API基础上建立支持中英文混合检索的全文数据库。在电子文献全文检索系统项目中作为全文检索工具。中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。  相似文献   

8.
分析了建立数字化公文数据库的必要性,阐述了Lucene技术在建立数字化公文数据库全文检索系统中具备的优势,介绍了应用Lucene技术实现数字化公文全文检索的整个流程及关键技术.  相似文献   

9.
本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统.针对汉语词法的特殊性,在基于词表的全文索引方面,本文应用了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新.并根据其特征,设计了优化的查询策略.  相似文献   

10.
随着信息技术的发展,国家电网公司亟待改变人工项目审核的现状,实现项目重复审核自动化。因此,提出了基于Lucene的全文检索技术在电力项目计划审核方面的应用方案。首先深入分析了国家电网公司的项目审核现状和全文检索技术的研究现状,其次简单介绍了全文检索技术和Lucene全文检索引擎的概念,然后详细介绍了全文检索过程;最后将全文检索技术引入电力企业项目计划审核,给出了一个基于全文检索的电力企业项目计划审核系统的架构设计。使用Lucene全文检索引擎进行企业专项项目重复审核,可以方便、快速地获得检索排序结果和文档相似度,并且检索准确度高。  相似文献   

11.
提出一种基于自然语言提问的自动答疑系统的设计思想,引入Lucene的全文检索模型.采用浏览器/服务器模式,设计并实现基于Lucene的自动答疑系统,通过对提问信息进一步的加工和提取,可实现浏览、搜索、提问等功能.该系统能够胜任一定领域内的,基于自然语言的自动答疑需求,并充分考虑了系统的开放性和可维护性的要求.然而,知识库还不具备自动学习功能,且对用户问题只进行简单的关键词拆分,没有进行语义分析,这使得系统还不具有完全的智能化特性.  相似文献   

12.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

13.
中文检索是信息产业中发展较快且很重要的领域,在对全文索引进行深入的理论分析基础上,设计实现了基于倒排索引结构的中文文本检索系统.该系统采用词库匹配法对文本文档进行关键词的切分,并对关键词建立索引,最后通过索引实现对关键词的检索.  相似文献   

14.
Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。  相似文献   

15.
基于Lucene.Net框架,利用.NetRemoting技术,结合多种数据挖掘和推荐算法构建面向大规模文本数据的厦门人才网分布式全文检索与推荐系统.提出把大索引切割成小索引,采用多台服务器并行处理的分布式解决方案,完成招聘企业、职位、应聘人员信息的整合与聚集,实现信息的智能推荐.实验结果表明,本系统取得了较高的索引效率、较快的检索速度以及较为精准的推荐结果,并在实际应用中取得了良好的效果.  相似文献   

16.
ACS全文数据库的使用及检索   总被引:1,自引:1,他引:0  
全面介绍了美国化学协会主办的ACS全文数据库的内容、使用方法及检索技巧。  相似文献   

17.
根据目前OPAC系统在性能上存在的不足,提出了采用Lucene全文检索开源库提高馆藏目录的检索性能的解决方案。  相似文献   

18.
基于Lucene的互联网文献信息检索系统的研究   总被引:1,自引:0,他引:1  
论文详述了利用Lucene索引工具包设计和实现的一个互联网文献信息检索系统,给出了系统的设计框架和各个模块的实现技术,并介绍了系统的检索算法.为了使系统支持中英文和各种格式文献检索,论文扩展了Lucene的分词接口和文件分析接口.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号