首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
将传统的“词袋”思想进行扩展, 把文档看成由句子组成的“句袋”, 通过依存句法分析得到“句袋”与查询中词间的依存关系。利用两者依存关系的匹配程度, 计算冗长查询和初次检索返回文档之间的相似度, 对初始检索结果进行重排序。通过在TREC标准数据集上的实验, 证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况, 检索结果的MAP值和P@N都有显著提高。  相似文献   

2.
针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。  相似文献   

3.
拟基于词映射实现跨语言沟通,缓解缺乏查询-文档语料及语言差异给检索带来的影响,提出一种基于双语交互注意力机制的伪查询句融合方法,通过词映射构造伪查询句,并基于双语交互注意力机制获取跨语言特征表示来实现跨语言信息检索(Cross-language information retrieval,CLIR)。主要包括以下三个部分:首先基于词映射分别构造伪查询句;其次,基于共享Transformer获取查询、伪查询及文档的上下文表示,同时借助查询与伪查询之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序获得查询和文档的匹配分数实现跨语言信息检索。基于英菲、英斯两种低资源CLIR公共数据集和本文构建的汉越数据集的实验结果表明,本文方法相比跨语言检索基线方法,MAP指标分别提升了1.5%和5.4%。  相似文献   

4.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

5.
基于Markov网络的检索模型   总被引:2,自引:0,他引:2  
基于Markov网络的信息检索模型提出一种贝叶斯网络推广的检索模型,该模型利用词项在文档集中的共现信息来构造Markov网络,通过该索引项子Markov网络来加载附加查询证据源,计算文档与查询之间的相关性概率,由此概率进行文档排序. 实验结果表明,本文提出的Markov网络模型比其他传统的检索方法具有更优的检索性能.  相似文献   

6.
当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能.  相似文献   

7.
近年来,基于深层语义信息表征的pointwise重排序策略存在忽略被检索文档之间的偏序关系的问题,并且,患者病例查询的内容表征也需要满足生物医学领域的特定需求。针对以上问题,本文提出了一种基于生物医学预训练语言模型(BioBERT)的偏序文档检索方法,该方法基于BM25召回文档,对待排序文档依次使用pointwise与pairwise提取特征,其中,pointwise方法能够获取待排序文档的全局位置特征,而引入查询特征的pairwise方法可以学习待排序文档之间的相对偏序关系。在TREC 2019 Precision Medicine Track数据集上的实验表明,该方法在p@10指标中,相比于最优的基准方法提升了3.3%。  相似文献   

8.
为了提高专业领域内信息检索的查准率,使检索结果在语义层面能够重新进行排序以去除非相关条目,利用语义Web中的本体技术和本体标准描述语言OWL建立了证券领域本体,并且基于证券领域本体提出了面向专业领域的信息资源检索系统IRS—SA,该系统有助于机构或者个人投资者获得及时有效的证券信息.系统接受输入检索关键词从而利用查询转化器自动构造或扩展用户查询,将自然语言查询转化为系统内部的格式后,使检索获得的结果按照本体中定义的概念及关系进行语义再排序,并将最后所得结果返回给用户,提高了文档语义相关性程度.  相似文献   

9.
为了解决传统依据关键字、概念和属性值等检索技术没有考虑不同主体中情报信息间的语义关系,无法提供令用户满意的情报检索结果问题,通过语义Web方法研究了多功能情报信息自适应检索技术。设计基于语义Web的多功能情报信息自适应检索模型,检索模型包括人机交互层、知识处理层以及知识存储层。在知识存储层建立本体语义模型。在知识处理层,从检索的多功能情报信息关键词中推断和其语义有关的概念,依据概念有关词汇对原始查询进行扩展,对语义相似度进行计算。在人机交互层,将用户反馈情况看作判断检索结果优劣的衡量因素,依据相似关键词获取相似结果集,按照反馈因子完成对所有相似结果的排序,把排序结果发送给用户,实现多功能情报信息自适应检索。结果表明,所提方法能够同时保证召回率与精度;排序误差率低;检索结果和用户查询结果最相符,检索结果准确,可令用户满意。可见所提方法检索性能强。  相似文献   

10.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

11.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。  相似文献   

12.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

13.
基于拼音索引的中文模糊匹配算法   总被引:3,自引:0,他引:3  
主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。  相似文献   

14.
提出一种定性地理信息检索方法, 用于地理信息的定性表达、语义匹配、推理和结果排序, 可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息, 将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度, 分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元, 采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息, 并对相关文档进行排序。这种检索和排序方法符合人类空间认知, 因此可以有效提高地理信息检索的效率。  相似文献   

15.
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。  相似文献   

16.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

17.
基于多查询数据融合和正相关反馈的检索算法   总被引:4,自引:0,他引:4  
为提高信息检索系统的性能,提出了一种多查询数据融合与正相关反馈相结合的检索算法.算法的核心思想是:利用基于向量表示的余弦相似度测度计算查询与文档之间的相似度,采用多查询数据融合技术将多个检索结果融合,以及从上一次检索结果中取出前M个相关文档和初始查询一起构成新的查询,将新查询提交给系统并继续下一次的检索,如此反复,直到获得满意的结果.实验结果表明,该算法相对于仅使用了多查询数据融合技术的算法和仅使用了正相关反馈技术的算法,其平均准确率分别提高42.6%和23.17%.  相似文献   

18.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk-Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。
  相似文献   

19.
描述了一种基于本体的信息检索模型,通过构造领域本体来有效提高系统对自然语言文本的理解能力,具体介绍了查询模型中三个抽象层的设计及使用,最后利用聚合函数对查询结果进行合并与评价,使用户最终得到与检索要求内容匹配度较高的文档。  相似文献   

20.
为了提高自动摘要的质量,研究了基于图模型的词句协同排序的自动摘要算法技术.自动摘要试图从原始文本中提取一定数量的重要句子形成节录式摘要,句排序是实现自动摘要的典型手段,已有工作大多通过构建词或句关联网络,再使用PageRank计算节点排序分值,该算法考虑词与句之间的互影响,提出词句协同排序的自动摘要算法,在句关联网络上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定.在句排序结果基础上,提出基于冗余度的句选择方法,以进一步提升自动摘要质量.在10篇中文文档上的试验结果表明,较之于单纯的句排序方法,所提出方法能有效提升自动摘要的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号