首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
常见情报检索系统一般是采用普通集合论和布尔逻辑表达式处理提问的。能够更为一般地表达检索者要求和处理提问的检索方法之一是相似性检索算法,特别是在其基础之上的模糊检索算法。本文提出计算文献标引词在各类文献中出现概率的一种可在电脑中自动统计的算法,它能有效地解决模糊情报检索中模糊聚类的从属度问题,同时,在不干扰检索者和原有的布尔逻辑检索系统工作的条件下,可望用这种方法将系统改造成为相似性检索、模糊检索系统。  相似文献   

2.
本文将着重讨论在国产小型机 DJS—152上建造一个实用性工程系统——集中型网络汉字联机多终端情报检索系统(简记为 CIRS)的应用软件配置和实施问题。首先给出集中型网络汉字情报检索系统(CIRS)的系统模式,尔后给出本系统的数据描述语言(CDDL)、数据操纵语言(CDML)、查询语言(CQL)和检索方法。特别,本系统将采用汉字辞库与倒排文档结构相结合的方式来建造起一个实时的、多终端汉字联机情报检索系统用的数据库(CDB)。这里,将应用文献论述过的方法来解决汉字辞库建造问题。此外,本文还介绍了考虑到检索效能、响应时间和通讯因素,将采用文献讨论过的单重——可变相关询问枝术来解决汉字联机查询要求。最后,本文讨论了物理数据描述和信息管理技术以及编辑排版等有关问题。  相似文献   

3.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

4.
在计算机情报检索中,检索提问标识是用户与计算机进行“人机对话”的煤介。它的质量直接影响到检索效果的好坏。本文通过对检索提问标识的切题与匹配的分析,讨论了检索提问标识的质量标准,以及它们的切题与匹配对检索效果的具体影响。并提出了改进检索提问标识的切题和匹配的基本途径。  相似文献   

5.
高效FTP搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量.  相似文献   

6.
基于本体的个性化检索技术研究   总被引:1,自引:0,他引:1  
林洁 《贵州科学》2009,27(4):50-52
近几年信息检索技术飞速发展,但很多搜索引擎都存在检索精度不高,检索结果不够个性化等问题。本文提出一种基于本体的个性化检索方法,在记录用户手动标注的信息生成一个个性化倒排索引的同时,再将其与本体知识相结合,进一步明确概念和语义关系,使得用户榆入相同或相近的检索词时也能反馈用户曾经标注过的文档信息,从而满足用户的个性化需求。  相似文献   

7.
对第一轮检索的结果文档进行重新排序,以提高顶端结果的准确率,一直是信息检索研究中的基础和关键热点问题。文章在考虑文档与文档的基础上,充分考虑了文档与关键词项以及词项与词项之间的多种关系,提出了一种基于流形学习的检索结果重排序的方法。将文档-文档,文档-关键词项,以及词项-词项这三种关系利用流形学习模型进行融合,然后通过正则化框架,在第一轮检索结果分数的基础上,进行文档重排序。在CLEF数据集上进行的实验表明,与基于图的文档重排序,基于LDA模型的文档重排序等方法相比,文中提出的方法可以更好地提高检索准确率。特别是在奥地利图书馆数据集中,采用MRR评估方法,文章所提出方法的准确率比表现最好的基线系统提高了11.78%,比第一轮检索结果提高了33.46%。  相似文献   

8.
基于本体的信息检索技术的研究   总被引:2,自引:0,他引:2  
基于关键词处理的传统检索技术会在检索过程中遗漏大量与检索概念相关或同义的内容.针对这种情况,提出了一种基于本体的Web信息检索模型.该模型能够利用本体得到具有语义的索引项,并生成较好的文档逻辑视图和用户需求逻辑视图,从而可以使检索性能大大提高.  相似文献   

9.
本文叙述一个在微计算机系统上开发的西文图书检索系统(简称RESYS)。该系统向读者提供了六种检索方式,并向图书管理员提供了系统维护和管理的若干手段。RESYS程序用PASCAL语言写成。数据文件和倒排文件的组织具有一定特色。为压缩书名倒排文件中的书名,提出了一种压缩函数。为便于系统的调试与验证,RESYS还专门设置了一个调试工具——调试模块VIEW。  相似文献   

10.
针对空间文本对象流和订阅流的匹配,采用一种混合索引树来组织数据对象,包括多叉树空间索引、谓词索引和倒排文件三个部分,其中多叉树空间索引用于空间区域管理,谓词索引和倒排文件用于订阅谓词管理.在此基础上,提出了谓词索引建立算法、空间文本对象与倒排项匹配算法和混合索引树检索算法.与基于空间网格加倒排文件的检索方法进行了对比实验,结果表明:所提出的算法提高了用户的检索效率,并验证了其有效性.  相似文献   

11.
针对图像视觉特征的快速检索问题,提出了一种增强型残差量化的不完全检索方法。建立在增强型残差量化的基础上,提出利用多层低复杂度的码书构建包含较大规模倒排列表的多维倒排索引结构,使得只需根据图像视觉特征的量化编码就可以将其快速地插入到倒排索引结构中。此外,结合倒排索引结构,设计了一种不完全检索方法和图像视觉特征之间近似距离的计算方法。通过在公开数据集进行实验和性能对比,所提出不完全检索方法较典型的三种不完全检索方法具有更好的检索精度和检索效率。  相似文献   

12.
针对主题爬行器获取网页更新速度快的特点, 提出一种用于网络搜索引擎的增量索引结构. 在建立倒排索引时, 每个词项的记录表以链接块的形式存放于倒排索引文件中, 每次新分配的块大小递增. 该索引结构解决了倒排索引连续存储所带来的难以更新问题. 实验结果表明, 与支持实时更新的传统链表式存储方式相比, 这种索引结构能提供更高效的检索, 采用以空间换时间的方法有效地提高了索引的更新效率.  相似文献   

13.
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,本文在FTP用户查询日志的统计分析基础上采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎,试验表明该方案能够有效地提高了FTP文件检索效率与质量。  相似文献   

14.
提出一种定性地理信息检索方法, 用于地理信息的定性表达、语义匹配、推理和结果排序, 可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息, 将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度, 分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元, 采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息, 并对相关文档进行排序。这种检索和排序方法符合人类空间认知, 因此可以有效提高地理信息检索的效率。  相似文献   

15.
一种面向域的高效倒排索引结构及实时更新   总被引:1,自引:1,他引:0  
倒排索引是搜索引擎的核心组成部分,对搜索的效率与质量有着较大的影响.在一些主题搜索引擎中,关键词被划分为多个域以提高检索质量,针对这种特点,本文提出了一种新的面向域的高效倒排索引结构,以及实时更新倒排索引的算法.实验结果表明,在每个域内索引词项个数接近词典大小的情况下,本文提出的倒排索引结构可以有效地提高搜索引擎的检索效率.  相似文献   

16.
在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于"频率因子"和"长度因子"的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。  相似文献   

17.
现有全文检索技术多是以文本信息为处理对象,对于以数学表达式为主要成分的科技文档检索还处在探索阶段.为了使用户可以方便地以数学公式作为查询语言对科技文档进行检索,提出了一种基于数学表达式特征的科技文档检索模型.首先通过将公式解析为二叉树得到数学表达式的子式信息,利用数学表达式及子式构造检索特征向量;在索引阶段,利用所提取的文档特征向量构建分层结构的索引表;在匹配阶段,对文档向量采用tf-idf进行加权操作,利用余弦相似度对检索向量和文档向量进行相似度计算,得到一个有序的文档检索结果.实验选取了来自不同领域的期刊、学术网站以及公共数据集的5 017篇科技文档,其中包含了96 362条数学公式,平均检索时间为0.428s,表明该模型达到了实现较高效率科技文档检索的目标.  相似文献   

18.
国际联机情报检索在我国经济建设中的作用梁建军国际联机情报检索是指情报用户利用终端设备,通过国际卫星通信网络与地球上任何地方的大型计算机情报检索系统主机直接进行人机对话式的联机检索过程。简单说,国际联机情报检索即国际化的全球范围内的联机情报检索。现在国...  相似文献   

19.
基于属性文法的本体形式化描述方法及其应用   总被引:3,自引:0,他引:3  
在分析本体概念和性质的基础上,提出一种基于简单属性文法的本体形式化描述方法,其中文法产生式描述本体内的各种逻辑关系,为逻辑层推理奠定了基础,通过属性求值规则实现本体的语义;设计一种属性求值器的构造方法,在此基础上实现基于语义的信息检索模型;将基于XML(extensible Markup Language)的本体元数据模型作为属性求值器处理的对象,提供相应的文档类型定义(DTD:Document Type Definition)以指导XML文档的创建;结合应用实例说明基于此方法的信息检索结果具有令人满意的精确度;通过改变产生式、属性及属性求值规则可扩充此方法.  相似文献   

20.
为了降低与主题不相关的地名对地理相关性产生的负面影响,提出一种基于文档地名感知的排序方法.该方法不确定文档的地理范围,而是分别计算文档中出现的每个地名与查询范围的相关性,以减小文档中不相关地名对检索结果的影响.实验表明,基于文档地名感知的方法的检索效果优于确定最小边界矩形的方法和基于tf-idf的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号