共查询到20条相似文献,搜索用时 15 毫秒
1.
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展,即中文分词器的设计;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的名著——《红楼梦》搜索引擎的设计与实现。 相似文献
2.
贺胜 《中国高校科技与产业化》2006,(Z3)
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,便于嵌入各种应用。本研究对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应中文信息技术发展的需求等方面进行了新的探索。 相似文献
3.
分析了建立数字化公文数据库的必要性,阐述了Lucene技术在建立数字化公文数据库全文检索系统中具备的优势,介绍了应用Lucene技术实现数字化公文全文检索的整个流程及关键技术. 相似文献
4.
本文分析了全文检索技术及其主要应用工具搜索引擎的工作原理,研究了常用搜索引擎的类型与基本技术指标。探讨了搜索引擎的应用方法和技巧。 相似文献
5.
周文勤 《甘肃联合大学学报(自然科学版)》2012,(4):52-56
对全文检索技术进行了介绍,提出了一种基于网络爬虫Heritrix和开源全文信息检索包Lucence的全文检索解决方案.该方案将Web应用中经常用到的全文检索功能进行封装,使其可以很方便地被集成到Java EE项目中.本方案被用于校园网内容检索功能的实现,实践证明,该解决方案简单易用、应用效果较好. 相似文献
6.
7.
周云 《大众科学.科学研究与实践》2007,(4)
实现了中文单字切分模块,并在Lucene API基础上建立支持中英文混合检索的全文数据库。在电子文献全文检索系统项目中作为全文检索工具。中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。 相似文献
8.
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。 相似文献
9.
随着信息技术的发展,国家电网公司亟待改变人工项目审核的现状,实现项目重复审核自动化。因此,提出了基于Lucene的全文检索技术在电力项目计划审核方面的应用方案。首先深入分析了国家电网公司的项目审核现状和全文检索技术的研究现状,其次简单介绍了全文检索技术和Lucene全文检索引擎的概念,然后详细介绍了全文检索过程;最后将全文检索技术引入电力企业项目计划审核,给出了一个基于全文检索的电力企业项目计划审核系统的架构设计。使用Lucene全文检索引擎进行企业专项项目重复审核,可以方便、快速地获得检索排序结果和文档相似度,并且检索准确度高。 相似文献
10.
针对传统数据库检索中检索速度较慢、 检索结果不完整、 检索结果排列无序等问题, 基于全文检索工具Lucene索引的结构, 设计一种基于Lucene的数据库索引结构, 并提出记录倒排索引链表的概念, 使网站不用再按照传统顺序查找方式进行检索, 而是以索引库中的关键词进行检索, 提高了检索效率. 实验结果表明, 基于
Lucene的数据库全文检索具有查全率高、 检索结果排列有序等优点. 相似文献
11.
基于Lucene.Net框架,利用.NetRemoting技术,结合多种数据挖掘和推荐算法构建面向大规模文本数据的厦门人才网分布式全文检索与推荐系统.提出把大索引切割成小索引,采用多台服务器并行处理的分布式解决方案,完成招聘企业、职位、应聘人员信息的整合与聚集,实现信息的智能推荐.实验结果表明,本系统取得了较高的索引效率、较快的检索速度以及较为精准的推荐结果,并在实际应用中取得了良好的效果. 相似文献
12.
全文检索中的文本学习技术研究 总被引:1,自引:0,他引:1
分析了本学习技术在全检索系统中的作用,指出本学习机制的优劣从基础上决定了全检索系统的性能;从训练本集的标准化表示、特征子集的抽取、学习算法分析三个方面讨论了本学习技术的内部机制,介绍了TFIDEF、Bayes、k-Nearest Neighbor和Decision tree等主要学习算法,还列出了一些较有影响的其它算法,并对这些算法进行了经验性比较;介绍了有关实际系统对学习技术的应用情况。 相似文献
13.
流行的数据库管理系统通常实现了全文检索子系统,从而方便对数据库表中的文本数据建立全文索引,进而借助于这个索引来检索文本数据.达梦数据库管理系统提供多文本数据检索服务.包括全文索引和全文检索.达梦数据库实现了全文检索系统.但是此系统存在着索引膨胀率过高,索引填充时间较长的问题.全文检索,是一门综合性很强的技术.它牵扯到了很多的技术点,主要有分词技术,数据源提取和文档解析技术,相关度计算技术,存储技术.压缩技术等. 相似文献
14.
随着网络的发展,用户对搜索引擎的要求越来越高,Lucene是一个用Java写的全文索引引擎工具包,可以方便的嵌入到各种应用程序中,与传统的搜索引擎相比,它更快捷、更准确的实现全文索引/检索功能。 相似文献
15.
针对各行各业出现的大量的各种电子格式的文件,本文介绍了一个能有效地存储和管理海量非结构化数据的全文检索系统平台TRIP,对TRIP的存储结构和索引体系进行了详细地阐述,比较了和同类产品的区别,给出了TRIP的应用范围。 相似文献
16.
超文本全文检索技术的研究与实现 总被引:7,自引:0,他引:7
在分析超文本全文检索功能需求的基础上,提出了一种将非结构的超文本转换成为结构化数据库,以支持全文检索的实现思想和模型,形式化地描述了超文本检索引擎的原理,并分析了模型设计与实现的关键技术问题,如超文本关键词提取、查询条件构造、全文检索算法及查询结果处理等。该模型具有实现简单、通用性强、支持大容量超文本信息检索等特点,并已在鲁讯图书馆数字化网络化信息系统和钱学森特色数据库系统中得到了验证和应用。 相似文献
17.
纪蔚蔚 《中国人民公安大学学报(自然科学版)》2002,(4):25-28
公安文献全文检索系统中嵌入超文本技术,其技术关键主要有动态锚点词生成技术、锚点词库的构造、锚点词库与其他数据库之间的链接关系以及利用锚点词进行全文定位检索的实现方法。 相似文献
18.
在数据检索系统中,基于越来越大的隐私数据量以及越来越高的安全检索要求,Mimir全文检索系统应时而生。Mimir是一种新型的安全索引结构,在B+树结构基础上,其检索环境为全密文环境,从而保证了信息传递的私密性以及安全性。同传统的检索系统相比,该密文检索系统没有设置词频信息以及词汇位置信息。因而对于已知明文攻击具有良好的抵御性,并对词频统计攻击以及选择明文攻击进行良好的抵御。通过对该种全文检索系统的测试,可以表明其性能具有高度的安全性,并且在实验结果的分析中也进一步说明Mimir密文全文检索的储存空间以及检索时间都具有一定的优势。 相似文献
19.
20.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。 相似文献