首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
中文Web文档全文检索系统的设计及实现   总被引:10,自引:0,他引:10  
为解决在检索某些词时发生漏检或错检,以及查全率和查准率不高的问题,研究字索引技术在中文Web文档检索中的应用.着重讨论字索引组织结构和检索方法,并引入了字节对齐的索引压缩方法,最后描述了一个中文Web文档全文检索系统的结构和实现.测试表明,该系统在响应时间和查准率方面性能均比较好,具有一定的实用性.  相似文献   

2.
针对传统数据库检索中检索速度较慢、 检索结果不完整、 检索结果排列无序等问题, 基于全文检索工具Lucene索引的结构, 设计一种基于Lucene的数据库索引结构, 并提出记录倒排索引链表的概念, 使网站不用再按照传统顺序查找方式进行检索, 而是以索引库中的关键词进行检索, 提高了检索效率. 实验结果表明, 基于
Lucene的数据库全文检索具有查全率高、 检索结果排列有序等优点.  相似文献   

3.
根据全文检索Apache Lucene引擎原理与流程,设计了一种网络视频信息的索引方法.可以对所有的视频信息进行索引,解决了视频搜索引擎排序信息不明以及局域网站搜索的局限性等问题.  相似文献   

4.
实现了中文单字切分模块,并在Lucene API基础上建立支持中英文混合检索的全文数据库。在电子文献全文检索系统项目中作为全文检索工具。中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。  相似文献   

5.
全文检索是基于Web的信息搜索的关键技术,文章从基于KySou的全文检索系统的实现机制入手,深入分析了全文检索系统的工作原理、系统组成及API接口设计,并就全文检索系统的优化进行探讨,包括索引过程优化和搜索过程优化。  相似文献   

6.
提出了实现全文检索系统的具体方案,介绍了相关技术并详细描述了系统实现过程,给出了部分关键代码,设计并实现了基于ASP.NET及索引服务的Web站点全文检索系统.该系统的建立及运行,提高了用户站内检索效率及查全率,使站内信息资源得以充分利用.  相似文献   

7.
中文检索是信息产业中发展较快且很重要的领域,在对全文索引进行深入的理论分析基础上,设计实现了基于倒排索引结构的中文文本检索系统.该系统采用词库匹配法对文本文档进行关键词的切分,并对关键词建立索引,最后通过索引实现对关键词的检索.  相似文献   

8.
流行的数据库管理系统通常实现了全文检索子系统,从而方便对数据库表中的文本数据建立全文索引,进而借助于这个索引来检索文本数据.达梦数据库管理系统提供多文本数据检索服务.包括全文索引和全文检索.达梦数据库实现了全文检索系统.但是此系统存在着索引膨胀率过高,索引填充时间较长的问题.全文检索,是一门综合性很强的技术.它牵扯到了很多的技术点,主要有分词技术,数据源提取和文档解析技术,相关度计算技术,存储技术.压缩技术等.  相似文献   

9.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

10.
中文密文数据库正则查询的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
为提高中文密文数据库查询的灵活性、便捷性、高效性,设计了一种新的密文索引结构.它通过登记汉字所在记录的记录标识以及汉字在属性值中的位置,来提供对中文正则查询的支持.在这种索引的基础上,提出了一系列正则查询处理算法,这些算法利用索引登记的汉字位置信息来筛选符合查询条件的记录.仿真实验证明,利用这种索引和算法,能够在中文密...  相似文献   

11.
本文论述了法规全文检索系统设计思想、系统的特点、主要功能和实现的方法 ,介绍了系统提供的包括自由文本检索、逻辑组合检索、程序检索在内的多种手段和方式 ,以及 B+树索引文件结构 .并进一步分析了采用超文本检索、多 B树结构、汉语词的切分和自动标引等可行方法 .  相似文献   

12.
Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。  相似文献   

13.
1.全文检索及发展 随着大量信息的出现以及计算机存储技术的发展,文献数据库正由书目数据库向全文数据库转变.这一转变使得全文检索技术得到空前的发展.常用的实现全文检索的方法主要有以下两种:第一种方法是不对数据库建立索引而直接对文章进行匹配的方法.这种方法由于没有建立索引库,因此所占空间较少,但同时正是因为它没有索引库,所以在进行全文匹配时要花费大量的时间.第二种方法是一种为全文建立索引的方法.这种方法可以大大节省检索的时间.但同时,这种方法需要占用一定的存储空间来建立索引库.目前,许多研究机构都在进行对全文检索的研究.传统的信息单位,图书馆等也开始建立全文数据库.一些软件公司,也纷纷推出全文检索软件.比较著名的有Microsoft公司开发的SQL Senrer 2000.  相似文献   

14.
为了实现基于内容的语音全文检索,提高语音检索性能,以及保障云端语音数据的隐私安全,提出了一种基于声母和深度哈希的密文语音全文检索方法.该方法将提出的基于汉语声母和元音的双向循环递归神经网络(RNN)-长短时记忆(LSTM)深度学习模型与语音感知哈希相结合,分别将加密语音和生成的哈希码上传至云端密文语音库和全文哈希索引表,并建立一一映射关系.查询时提取待查询语音的哈希码,并与云端的全文哈希索引表进行阶段式匹配检索.实验结果表明:该方法既能保障语音隐私安全,又能获得较高的检索精确度与可观的召回率(当精确度为97.68%时召回率可达47.60%),并在一定程度上减弱了说话人声音特征对全文检索的不利影响.  相似文献   

15.
基于Lucene的中文分词方法设计与实现   总被引:3,自引:2,他引:1  
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.  相似文献   

16.
文章在简要介绍XML技术的基础上,设计了一个运用XML技术解决法律文件全文检索的系统架构,通过词与简单路径建立XML法律文件的索引,加快了检索的速度,提高了效率,并在.net环境下实现了该系统的原型。  相似文献   

17.
全文检索是搜索引擎的核心技术之一。由于目前基于LUCENE的中文全文检索正在适应中文信息技术发展的需求等方面进行探索,基于LUCENE的藏文全文检索也需要适应藏文信息技术发展的需求进行新的探索。文章介绍了一种全文检索引擎工具包——LUCENE,并结合当前藏文信息技术现状提出了藏文全文检索相关问题和需要解决的关键问题。  相似文献   

18.
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,便于嵌入各种应用。本研究对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应中文信息技术发展的需求等方面进行了新的探索。  相似文献   

19.
以图书馆的常见问题为基础,研究全文检索、中文分词、向量空间模型等技术,构建符合相关问题的知识库,结合云数据库设计,在微信小程序平台运用JavaScript,WXML,WXSS,Python等开发语言和Flask框架,实现一个基于微信小程序的图书馆智能客服系统,其中的智能回复模块实现了全文检索和中文分词等技术,以鲜明的便捷性、开放性和自主性拓宽了图书馆的智能服务模式.  相似文献   

20.
1.全文检索及发展随着大量信息的出现以及计算机存储技术的发展,文献数据库正由书目数据库向全文数据库转变。这一转变使得全文检索技术得到空前的发展。常用的实现全文检索的方法主要有以下两种:第一种方法是不对数据库建立索引而直接对文章进行匹配的方法。这种方法由于没有建立索引库,因此所占空间较  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号