首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
中文Web文档全文检索系统的设计及实现   总被引:10,自引:0,他引:10  
为解决在检索某些词时发生漏检或错检,以及查全率和查准率不高的问题,研究字索引技术在中文Web文档检索中的应用.着重讨论字索引组织结构和检索方法,并引入了字节对齐的索引压缩方法,最后描述了一个中文Web文档全文检索系统的结构和实现.测试表明,该系统在响应时间和查准率方面性能均比较好,具有一定的实用性.  相似文献   

2.
设计了蒙古文硕士论文检索系统,并实现了一个基于云架构的分布式论文检索系统。设计完成了满足分布式要求的蒙古文分析器,作为系统核心模块在分布式多节点上实现了蒙古文的索引和检索功能。在分布式索引方面,主要实现数据哈希分片、蒙古文分析器对每个分片进行分析、评分并建立倒排分片索引。在检索方面,使用BM25概率模型可对蒙古文论文检索和排序,并具有关键词或摘要的中文检索功能。分布式蒙古文硕士论文检索系统,可为进一步研究主题分析提供高质量的蒙古文硕士论文数据。  相似文献   

3.
本文介绍了中文水产文献检索系统CFIRS的设计思想、系统构成和系统特点,提出了一种通过字典和词典匹配,进行模糊切分、轮排标引的题名关键词自动抽取和自动标引新方法。系统中实现了基本索引检索词与辅助索引检索词的任意组配检索及检索结果的年代限制。  相似文献   

4.
BBS搜索系统是为公安系统等监管部门了解年轻人思想动态,及时发现证据,防止案件发生而建立的.针对如何搜索各BBS上把符合搜索要求的信息检索出来,设计了一个面向BBS的关键词搜索引擎系统.首先从BBS搜索系统的需求分析入手,其次进行技术分析和方案设计,同时提出了一个索引倒排的索引算法,以此并设计了一个检索器将检索结果呈现,最后参考典型搜索引擎的实现,完成了一套小型的针对BBS进行扒取和检索的系统.目前该系统运行良好,结果表明该系统性能高,易于维护,对同类研究有一定借鉴作用  相似文献   

5.
根据校园舆情和信息安全管理的需要,结合垂直搜索的特点,提出了一种面向主题的域内垂直搜索引擎模型.给出了模型在信息采集、分词处理、主题识别、网页索引、检索处理5个功能模块的实现过程,并对模型涉及的中文分词方法、隐形关键词组的扩展运算、检索正态化因子的调整等关键技术进行了讨论.建成的搜索引擎能够很好地满足用户主题检索服务的需要.  相似文献   

6.
中文科学引文索引(CSCI)和中文社会科学引文索引(CSSCI)两大系统,是借鉴世界"四大索引"的编排经验建立起来的同类型检索工具.文章分别介绍了两大系统的主建单位、编制特点、数据容量、载体形式、检索功能、文献源及专业范围等方面的情况,总结出其权威性、科学性、中国特色等特点.并就引文类索引产生的数据指标在我国学术评价中的四个功能进行简述,为教师、科研人员了解利用我国的引文类索引工具提供了参考.  相似文献   

7.
1 引言 过去,科技情报检索大多采用关键词检索方式,分两种情况:一种是在大段的文字里提取出关键词,按这些关键词建立索引,然后对关键词进行查找,由此实现对科技情报的检索;第二种是所谓的全文检索,由检索者提出一个词,作为关键词在相关的全文数据库系统中进行检索,获得相关的科技情报。上述方法在传统的科技情报检索中发挥过巨大的作用。  相似文献   

8.
检索系统构建了用于记录各数据项在数据表和字段中位置的索引结构,以及基于数据库关系图的用于描述各个数据表之间关联关系的主外键关系表,根据索引结构和主外键关系表检索出与用户输入的多个关键词相关联的记录.为了进一步提高检索效率,又构建了一个查询结果存储结构,把查询过的关键词和对应的结果存入其中.当用户输入关键词进行检索时,检索系统先去查询结果存储结构中检索,如果检索到就直接输出结果,否则再通过访问索引结构和主外键关系表构建SQL语句到原始数据库中进行检索得到结果.实验结果表明,这种基于索引结构和查询结果存储结构的检索机制具有较好的检索性能.  相似文献   

9.
针对传统数据库检索中检索速度较慢、 检索结果不完整、 检索结果排列无序等问题, 基于全文检索工具Lucene索引的结构, 设计一种基于Lucene的数据库索引结构, 并提出记录倒排索引链表的概念, 使网站不用再按照传统顺序查找方式进行检索, 而是以索引库中的关键词进行检索, 提高了检索效率. 实验结果表明, 基于
Lucene的数据库全文检索具有查全率高、 检索结果排列有序等优点.  相似文献   

10.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

11.
通过分析基于单字或词的全文检索方法,讨论衡量信息检索速度的一个重要指标———系统最长检索时间.针对中文海量信息,提出了一个基于任意字串的快速全文检索算法.  相似文献   

12.
分析了门户网站全文信息检索系统的功能,对该系统的结构(包括数据采集引擎、索引数据库、索引引擎、文本分析引擎、数据查询引擎)进行了研究,重点讨论了数据采集引擎中的数据库采集器和HTML采集器.统一整合频道后建立的全文信息检索系统,能够提供高效、便捷的信息检索服务,提高用户对网站内容的搜索效率.  相似文献   

13.
分析了当前信息检索多是建立在语词匹配基础上的搜索,索引库不断增大,搜索时间长等问题.通过对文本检索步骤和索引结构的研究表明,索引结构是决定文本检索效率的关键.提出对动态索引结构B+树进行改进,通过改进减少了索引层数,提高了检索速度,降低了索引存储空间,研究结果对改进文本检索效率具有积极意义.  相似文献   

14.
为在网络数据中搜索到所需相关数据, 通过对基于后缀数组的全文索引结构的改进研究, 设计和实现一种降低空间占用率并有效提高索引速度的全文索引结构加权有向词图。通过实验证明, 加权有向词图在相同问题规模下能降低存储空间, 同时不影响检索的效率, 是一种更为高效的全文索引结构。  相似文献   

15.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

16.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

17.
通过对全文索引的定义、功能、创建方法以及在网络环境中的性能和匹配等问题进行分析,通过合理使用相关参数,找出较为合理的提升全文索引性能的方法,以实现最大吞吐率和最佳性能的目的.  相似文献   

18.
随着人类步入信息时代,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾日益突出,怎样快速地检索相关信息已经成为研究热点。阐述了全文检索系统的原理,分析了基于字表结构的索引组织方法和索引库的建立。通过和B-树的对比,提出了基于B+树的索引存储方法及其算法思想,对提高索引的存储效率和查找速度具有一定意义。  相似文献   

19.
在全文数据库发展过程中,人们一直在寻求一种好的索引方式以满足巨量数据信息管理的需要.本文论述了全文库中索引技术发展现状,并针对其在索引维护方面存在的不足,分析一种基于B+树的新数据结构--多B树结构在全文索引技术方面的优势、实现的可行性以及发展前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号