首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lucene索引段合并优化策略,该策略通过负载系数来选择不同的索引段合并操作。为提高数据的检索速度,进一步建立索引段相似度评价模型来选择出最优合并索引段集合进行合并。通过与现有Tiere,LogByte,LogDoc等合并策略进行实验对比,提出的优化策略能有效减少索引段合并次数,提升系统吞吐量及索引效率。  相似文献   

2.
针对传统数据库检索中检索速度较慢、 检索结果不完整、 检索结果排列无序等问题, 基于全文检索工具Lucene索引的结构, 设计一种基于Lucene的数据库索引结构, 并提出记录倒排索引链表的概念, 使网站不用再按照传统顺序查找方式进行检索, 而是以索引库中的关键词进行检索, 提高了检索效率. 实验结果表明, 基于
Lucene的数据库全文检索具有查全率高、 检索结果排列有序等优点.  相似文献   

3.
基于Lucene.Net框架,利用.NetRemoting技术,结合多种数据挖掘和推荐算法构建面向大规模文本数据的厦门人才网分布式全文检索与推荐系统.提出把大索引切割成小索引,采用多台服务器并行处理的分布式解决方案,完成招聘企业、职位、应聘人员信息的整合与聚集,实现信息的智能推荐.实验结果表明,本系统取得了较高的索引效率、较快的检索速度以及较为精准的推荐结果,并在实际应用中取得了良好的效果.  相似文献   

4.
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。  相似文献   

5.
基于Lucene的互联网文献信息检索系统的研究   总被引:1,自引:0,他引:1  
论文详述了利用Lucene索引工具包设计和实现的一个互联网文献信息检索系统,给出了系统的设计框架和各个模块的实现技术,并介绍了系统的检索算法.为了使系统支持中英文和各种格式文献检索,论文扩展了Lucene的分词接口和文件分析接口.  相似文献   

6.
赵维 《科技信息》2011,(24):234-234
我们研究了一个具有通用性的面向学术领域的搜索引擎,若想改变应用领域,则只需修改领域词汇的词库文件,该搜索引擎系统基于Lucene构建,并论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。  相似文献   

7.
郭鹏 《科技信息》2010,(36):255-256
Compass是一个基于Lucene的、开源的、事务的、可灵活配置的、高性能的对象/搜索引擎框架与Java持久层框架。本文提出了一种基于Compass的图情学科信息共享空间全文检索系统的实现方式,讨论了系统实现的关键技术,集成Hibernate3.3共同实现数据的持久层,集成Struts2实现系统的控制层,集成Spring3.0实现AOP以及事务管理,大大减化了索引的创建、优化、与数据库的同步更新。  相似文献   

8.
介绍了利用Lucene结合Tika实现站点内容的全文检索设计的编程过程。用Tika获取文档的元数据以及文档内容的文本提取。用Lucene实现文档的索引创建和检索服务,结合实例详细分析了Lucene API的具体使用特点。利用Spring MVC实现搜索服务的Web访问处理。可对网站的HTML、PDF、word、PPT、mht等各种类型的文档提供统一的内容检索服务。在该论文研究基础上可建立个性化的内容搜索服务系统。  相似文献   

9.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。  相似文献   

10.
当今搜索引擎已经成为人们在网上搜索信息的重要工具,分析索引机制架构和全文检索系统结构,探讨了实现Tomcat+JSP+Lucene的运作流程和核心代码,对如何提高索引性能进行了研究.  相似文献   

11.
ACS全文数据库的使用及检索   总被引:1,自引:1,他引:0  
全面介绍了美国化学协会主办的ACS全文数据库的内容、使用方法及检索技巧。  相似文献   

12.
重点论述了4种获取原文的途径:利用搜索引擎的专业检索功能;登录免费医学网站或医学数据库直接进行检索;通过作者的E-mail地址向其索取原文;通过机构网上免费原文代查服务。  相似文献   

13.
中文检索是信息产业中发展较快且很重要的领域,在对全文索引进行深入的理论分析基础上,设计实现了基于倒排索引结构的中文文本检索系统.该系统采用词库匹配法对文本文档进行关键词的切分,并对关键词建立索引,最后通过索引实现对关键词的检索.  相似文献   

14.
通过分析基于单字或词的全文检索方法,讨论衡量信息检索速度的一个重要指标———系统最长检索时间.针对中文海量信息,提出了一个基于任意字串的快速全文检索算法.  相似文献   

15.
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档.  相似文献   

16.
ProQuest学位论文全文库及检索利用   总被引:1,自引:0,他引:1  
阐述了ProQuest学位论文全文库的基本概况,介绍了检索系统的使用方法,探讨了检索表达式的构建、检索结果处理以及其他链接使用。  相似文献   

17.
ProQuest Medical Library系统的分析与评价   总被引:2,自引:0,他引:2  
介绍了ProQuest Medical Library数据库的概况和特点,详细阐述了ProQuest Medical Library数据库的检索方法,并对该系统的性能作了相关评价。  相似文献   

18.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

19.
阐述了本体的概念,介绍了本体在信息检索尤其是文献检索领域的应用情况,阐述了本体在特色库中应用的意义,整理出本体应用于特色库系统的建设步骤,重点对特色库检索流程进行了分析,对其中涉及的自动分词技术和中文同义词自动识别技术进行了说明,对文献关于用户检索词相关度的计算及文献间相关度的计算给出了具体的算法,并对其中不足之处给予说明,总结了本体在特色库系统的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号