首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
信息检索向量空间模型中特征提取的研究   总被引:8,自引:0,他引:8  
介绍了向量空间模型中文档向量及查询向量的表示,以及索引词-文档矩阵的含义,在此基础上讨论了索引词权重的计算公式及选择方法(特征提取).  相似文献   

2.
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型LSI,LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。  相似文献   

3.
现有全文检索技术多是以文本信息为处理对象,对于以数学表达式为主要成分的科技文档检索还处在探索阶段.为了使用户可以方便地以数学公式作为查询语言对科技文档进行检索,提出了一种基于数学表达式特征的科技文档检索模型.首先通过将公式解析为二叉树得到数学表达式的子式信息,利用数学表达式及子式构造检索特征向量;在索引阶段,利用所提取的文档特征向量构建分层结构的索引表;在匹配阶段,对文档向量采用tf-idf进行加权操作,利用余弦相似度对检索向量和文档向量进行相似度计算,得到一个有序的文档检索结果.实验选取了来自不同领域的期刊、学术网站以及公共数据集的5 017篇科技文档,其中包含了96 362条数学公式,平均检索时间为0.428s,表明该模型达到了实现较高效率科技文档检索的目标.  相似文献   

4.
XML文档检索日益重要,如何对XML文档建立索引是XML文档信息检索研究的关键。文中设计了一种索引结构,在索引项中引入索引词权重,根据权重值为XML文档各结构单元建立索引项,并给出得到索引项的索引算法。实验证明索引结构和算法能够大大降低计算量和复杂度。  相似文献   

5.
全文检索的效率依赖于数据结构-倒排索引,存储倒排索引需要较大的硬盘存储空间。提出了一种新的压缩算法,主要用于倒排索引中文档标识符的压缩。对于给定的文档集合使用信息检索工具Terrier,使用不同的压缩算法压缩倒排索引中的文档标识符,从而生成倒排索引文件,然后比较倒排索引文件的大小。实验结果表明,使用新的压缩算法能够节省倒排索引文件的存储空间。  相似文献   

6.
为了进一步提升语义检索的精度和改善用户体验,提出了一种基于多分类语义分析和个性化的语义检索方法.首先,利用改进的多分类语义分析方法实现目标文档的向量化,并建立词向量库;然后,利用支持向量机对文档进行分类,并结合文档类别生成标签索引.在检索时,根据词向量库的引导,使用用户历史检索记录和个人信息优化检索结果.实验结果显示,基于该方法的系统的检索精度、平均DCG和nDCG指标值分别达到0.7,7.267和0.890,较基于Lucene方法和Yahoo Directory方法所得结果的均值分别高出31%,36%和19%.在时间复杂度上,每次检索的平均耗时为0.669 s,较Lucene方法仅增加了0.326 s.由此可见,该方法提高了检索的精度和综合相关度,且额外的时间消耗较少.  相似文献   

7.
随着XML文档的大量涌现,如何高效地像存取整个文档一样直接存取文档中任意元素已成为一个亟待解决的关键问题,另外,能够快速高效地支持XML文档更新的索引技术在商业领域也更加急需,提出了一种基于倒排表的索引,能很好地支持文档结构和内容的动态更新,给出了利用关系数据库实现该索引的方法。  相似文献   

8.
xml作为一种数据表示方式,越来越为人们所接受.最近,基于xml/半结构化数据的索引的查询引起了人们的广泛关注.有人提出来用结构索引来支持基于xml/半结构化数据的查询.由于xml/半结构化数据的结构不严格、不规则,结构索引会随着数据的增加或删除而变化,维护结构索引就成了首要问题.本文研究了在xml文档集合上增加多个文档和删除一个文档时结构索引的更新,提出了在这两种情况下的索引维护算法,这两种算法比现在已知的其它算法的性能要更优秀.  相似文献   

9.
导航文档能够为用户更好地使用教育软件提供一个有效的途径,从而对教育软件的推广应用有着积极作用.针对教育软件中导航文档的主题、内容、索引及结构的设计进行了粗略的探讨,并对实现导航文档的一般步骤进行了总结.  相似文献   

10.
一种基于主题的文档检索模型   总被引:2,自引:1,他引:1  
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.  相似文献   

11.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

12.
传统的WEB查询是基于HTML文档中的全文信息的,只要文档中包含某一待查询的词语,文档就会被选中,而不管该单词在文档中的作用和地位如何.提出了一种基于文档的Dublin Core元数据的查询方法,首先从HTML文档中提取出相应的Dublin Core元数据放入索引库中.当用户提出查询请求时,在索引库查找与用户请求相匹配的文档条目,然后将它们返回给用户.由于元数据是对文档资源的精确描述,因此这种查询方法得到的文档具有较高的相关性,避免了出现大量无关的查询结果.  相似文献   

13.
中文Web文档全文检索系统的设计及实现   总被引:10,自引:0,他引:10  
为解决在检索某些词时发生漏检或错检,以及查全率和查准率不高的问题,研究字索引技术在中文Web文档检索中的应用.着重讨论字索引组织结构和检索方法,并引入了字节对齐的索引压缩方法,最后描述了一个中文Web文档全文检索系统的结构和实现.测试表明,该系统在响应时间和查准率方面性能均比较好,具有一定的实用性.  相似文献   

14.
基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术语与术语组相似度、术语组和术语组间相似度的概念及算法的基础上,给出一种基于词语相似关系的文档相似度计算方法.实验采用科技文献类文档和新闻报道类文档作为测试集合,比较新方法和向量空间算法的分类性能,结果显示新方法可提高文档分类的准确性.  相似文献   

15.
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳.  相似文献   

16.
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率.  相似文献   

17.
XML Schema作为一种描述XML文档模式信息即结构信息的标准,对于XML索引的建立及查询效率的提高有着重要的作用。现在大部分XML索引结构着重研究XML文档的结构查询。本文在比较研究了现有的区间编码方式和XML索引技术的基础上,提出了一种基于Schema的XML索引技术SBXI(Schema-Based XML Indexing)。SBXI充分利用了XML Schema建立XML索引从而提高路径查询的效率,并进一步展望未来的研究方向。  相似文献   

18.
对档案袋数据管理技术(APDM)体系结构的建立、层次文档的形成和管理关键性技术进行了研究,提出了针对这种半结构化文档的存储方法和索引策略.  相似文献   

19.
根据GML数据查询的需要,在分析XML文档编码和空间索引技术的基础上,提出一种基于扩展的元素区间编码的GML索引方法.首先通过扩展的区间编码方法对GML文档中的元素、属性、文本、几何体等要素进行编码;其次依据元素编码算法并将非空间节点、空间节点、元素节点从GML文档树中分离,产生元素编码序列;在此基础上根据节点类型的不同对属性和文本节点建立B+树索引以实现值查询,对几何体节点建立R树索引以实现空间数据的分析操作,并在查询处理时通过查询优化算法避免不必要的节点的遍历,进一步提高查询效率.实验结果表明,基于元素区间编码的GML数据索引方法是可行的、高效的.  相似文献   

20.
Web文档自动分类是Web挖掘中的重要研究内容。文档向量空间模型(VSM)是实现文档自动分类的基础,但如何排除冗余属性并降低向量空间的维数是一个难点。文中运用粗集理论对由样本文档集合构成的信息系统进行数据泛化,并求取文档的最优规约属性集,大大降低了文档的特征空间的维数,减少了冗余属性对文档分类的干扰,提高了分类效率。运用Fuzzy ARTMAP(adaptive resonance theory mapping)神经网络,利用其自适应分类和增量学习的优良特性,实现了对Web文档的在线自适应分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号