首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Markov网络的信息检索扩展模型   总被引:6,自引:0,他引:6  
为了解决信息检索性能较差的问题,查询扩展将索引项之间的关系以及文档之间的相似度引入到检索中,这个过程可以通过构造知识网络来进行.Markov网络是一种有效的知识关联图形表示方法,可以从实例数据训练获得.本研究提出并实现了基于Markov网络的信息检索扩展模型,通过对文档集的学习,构造了关于索引项和文档的Markov网络,将有利于检索的信息加入到检索中.实验表明,基于Markov网络的信息检索扩展模型优于BM25模型.  相似文献   

2.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

3.
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和 本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体BabelNet 等减 少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其 构建在BM25F 统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检 索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传 统的基于机器翻译的信息检索模型。  相似文献   

4.
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%.  相似文献   

5.
基于Markov网络的检索模型   总被引:2,自引:0,他引:2  
基于Markov网络的信息检索模型提出一种贝叶斯网络推广的检索模型,该模型利用词项在文档集中的共现信息来构造Markov网络,通过该索引项子Markov网络来加载附加查询证据源,计算文档与查询之间的相关性概率,由此概率进行文档排序. 实验结果表明,本文提出的Markov网络模型比其他传统的检索方法具有更优的检索性能.  相似文献   

6.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

7.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

8.
基于潜在语义对偶空间的跨语言文本分类研究   总被引:1,自引:1,他引:0  
当今互联网上语言呈现多样性趋势,如何组织这些多语言的资源成为研究的热点。通过对双语平行语料库提取语义对应关系,构建潜在语义对偶空间,把双语文档映射到此概念空间后,实现跨语言分类。并通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。  相似文献   

9.
针对传统基于关键字的信息检索系统查全率和查准率都不高的缺点,提出了一种基于语义Web的智能信息检索模型,此模型在语义Web的环境下,利用本体技术,将最初的检索词通过查询扩展模块得到更完善的检索词集,然后利用扩展的检索词集进行检索。将基于关键字匹配的信息检索系统提升为基于本体知识库扩展查询的智能检索系统,从而提高了查全率与查准率,满足了人们对信息检索系统的要求。最后给出了模型的一种实施方案。  相似文献   

10.
本文主要研究基于网络的可比较语料库的构建以及其在跨语言信息检索(CLIR)中的应用。首先从新闻网站获取新闻文本,用Lucene进行对齐,构建可比较语料库;其次,利用上下文信息从对齐的文本中抽取翻译知识;最后,用获得的翻译知识在TDT4语料上进行CLIR性能实验。实验表明,所抽取的翻译知识可以提高CLIR的性能,取得了0.272 8的MAP值,相对于基于本地词典的方法提高了35.44个百分点。  相似文献   

11.
区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型.  相似文献   

12.
全局分析方法是一种常用而能有效改善信息检索效果的查询扩展方法。通过计算词间相似度构造M arkov网络模型;然后由此模型加强候选词集中的词相关性描述,并提取了在Markov网络中词间的团结构;通过在查询中加入查询词所在团中的其他候选词进行查询扩展。实验表明基于Markov网络团的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。  相似文献   

13.
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。  相似文献   

14.
根据全信息理论,认识论信息是语法信息、语义信息和语用信息的三位一体.在信息检索的过程中加入语用信息能有效的提高信息检索的质量.基于查询与内容的文档表示模型较好的利用了语用信息,对站内搜索引擎的查准率的提高有着很好作用;Lucene是一个用java语言开发的开源的全文搜索引擎架构.本文利用Lucene设计和实现一个基于查询与内容的文档表示模型的站内搜索引擎,实验结果表明该模型能有效的提高信息检索的查准率.  相似文献   

15.
为解决跨语言信息检索中多语言知识组织问题,根据本体术语学中概念具有独立于语言多样性的稳定性,不同语言或文化背景下的术语可表示同一个概念的核心观点,结合教育领域的需求,依据《教育主题词表》构建出支持多语言检索的标准化本体模型。将对术语的检索提升到概念层面,从而消除由不同语言相互转换所带来的歧义,很好地解决了教育领域跨语言语义信息检索问题。最后,利用Jena API 实现对该本体的查询并构建出跨语种语义检索原型系统,结果证明了所提出的方案的可行性。  相似文献   

16.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

17.
考虑到传统信息检索算法在检索数字文献推广信息时存在安全性差、检索效率低的问题,提出了基于语义相似度的数字文献推广信息智能检索算法.基于数字文献检索信息文档,计算了数字文献推广信息中检索词的相关度,根据语义相似度,计算数字文献推广信息的权重值,利用数字文献推广信息数据库的查询结果,结合李雅普诺夫定理,提取数字文献推广信息关键特征,根据采集原始数据集的时间,计算数字文献推广信息的平均检索概率,利用过滤器清理数字文献数据库的局部推广信息,采用全局过滤器,清洗数字文献数据库的推广信息,通过定义数字文献推广信息检索元素值,计算了关键词之间的语义相似度,结合数字文献推广信息检索算法设计,实现了数字文献推广信息的检索.实验结果表明,基于语义相似度的数字文献推广信息智能检索算法不仅可以提高数字文献推广信息的检索效率,还具有很高的安全性.  相似文献   

18.
在汉语问答系统中,当用自然语言问句进行文档检索时,由于问句比查询词包含更多的语义信息,因此必须进行查询词扩展以提高信息检索的性能.通过分析已有的查询扩展方法,提出了基于集合论的查询扩展新方法.它结合了3种传统的查询扩展方法:语义词典法、自动相关反馈法和问题类型词.实验结果表明该方法在Web检索方面是有效并且优于传统的方法.  相似文献   

19.
基于互信息的粗糙集信息检索模型   总被引:2,自引:0,他引:2  
在信息检索过程中,由于文档中存在大量的多义和近义现象,导致不确定性出现,这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息,对互信息做模糊聚类来构造词之间的等价关系,然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型,通过实验的测试,该模型能够提高信息检索的效率.  相似文献   

20.
将传统的“词袋”思想进行扩展, 把文档看成由句子组成的“句袋”, 通过依存句法分析得到“句袋”与查询中词间的依存关系。利用两者依存关系的匹配程度, 计算冗长查询和初次检索返回文档之间的相似度, 对初始检索结果进行重排序。通过在TREC标准数据集上的实验, 证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况, 检索结果的MAP值和P@N都有显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号