首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
观点检索是自然语言处理领域中的一个热点研究课题。现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,这种稀疏空间下的检索方式影响了观点检索模型的性能。文章提出一种基于文本概念化的观点检索方法,通过知识图谱计算概念空间下不同文本之间的相似度以改善特征空间的稀疏问题。这一方法首先利用知识图谱分别将用户查询和文本概念化到概念空间,同时在概念空间计算查询与文本的主题相似度,接着基于词典计算文档的观点得分,最后将相关度得分与文本的观点得分二次组合成相关观点得分并用于观点检索。实验表明,在两个数据集上,本文方法相比基准工作在MAP评价指标上分别提升了4.2%和12.6%。  相似文献   

2.
目的提高扩展词与用户查询在语义层面上的关联,解决歧义扩展问题。方法基于差分进化算法的语义查询扩展技术先利用领域本体提供的领域背景知识来获取候选扩展词集,然后通过分析用户日志来获取用户检索偏好信息,最后利用差分进化算法确定同用户检索意图最相符的扩展词集。结果比起前沿的局部上下文分析方法,基于差分进化算法的语义查询扩展技术能够确定更高质量的扩展词集。结论利用用户日志和本体中概念间的语义关系作为背景数据来过滤无关的扩展词可以有效提高后续语义扩展过程的效率,差分进化算法能够有效排除同用户检索意图无关的词集并确定高质量的扩展词集。  相似文献   

3.
基于用户兴趣及术语间关系的查询扩展方法   总被引:1,自引:0,他引:1  
针对传统查询扩展方法无法根据不同用户的需求进行检索的不足,提出一种基于用户兴趣和术语间关系进行查询扩展的方法。通过对用户浏览的网页文档及得到的网页日志进行挖掘得到一系列代表用户兴趣的术语,根据与初始查询词存在同义关系的用户兴趣术语及其权重对初始查询词权重进行调整,利用兴趣术语中与初始查询词存在本体关联关系的术语对初始查询进行扩展。实验结果表明,该方法相对于传统查询扩展方法在一定程度上提高了信息检索的查全率和查准率。  相似文献   

4.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

5.
当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能.  相似文献   

6.
提出一种以词片为识别基元的特定位置后验概率网格方法,解决了语音检索中的集外词处理问题,实现开集语音文档检索。通过引入前端查询扩展技术生成多个候选查询以补偿语音识别过程带来的误差及用户输入误差。在检索过程中引入编辑距离权重来实现模糊查询,提高系统的查全率并增强系统鲁棒性。实验表明该方法在集外词处理和系统鲁棒性等方面优于传统方法。  相似文献   

7.
数字档案检索的查询扩展方法以中文分词技术、查询扩展技术、信息聚类技术和数据挖掘技术等相关技术为依托,通过挖掘、整理构建相关词库,将其有机地融合到数字档案信息利用查询中实现查询扩展。查询扩展方法提供相关词检索,明确用户的查询需求,引导利用者根据自己的需求进行检索,使得利用者可以快速地获取自己需要的档案信息,提高数字档案检索的查全率和查准率。  相似文献   

8.
将传统的"词袋"思想进行扩展,把文档看成由句子组成的"句袋",通过依存句法分析得到"句袋"与查询中词间的依存关系。利用两者依存关系的匹配程度,计算冗长查询和初次检索返回文档之间的相似度,对初始检索结果进行重排序。通过在TREC标准数据集上的实验,证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况,检索结果的MAP值和P@N都有显著提高。  相似文献   

9.
将传统的“词袋”思想进行扩展, 把文档看成由句子组成的“句袋”, 通过依存句法分析得到“句袋”与查询中词间的依存关系。利用两者依存关系的匹配程度, 计算冗长查询和初次检索返回文档之间的相似度, 对初始检索结果进行重排序。通过在TREC标准数据集上的实验, 证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况, 检索结果的MAP值和P@N都有显著提高。  相似文献   

10.
目前研究文本情感分类往往只关注文档内容,对文本信息缺失和歧义等特点考虑不够,导致模型性能较低,为此提出一种融合知识图谱的用户和产品层次化注意力网络.首先通过双向长短期记忆网络获取词汇层隐藏表示,利用具有哨兵注意力机制将知识图谱中的知识与文本相结合获取词汇的知识感知状态向量;其次利用注意力机制结合用户和产品信息;最终利用归一化指标函数识别情感极性.结果表明,该方法在Yelp和IMDB数据集上的精确率和均方根误差优于基准方法,验证了模型的有效性.  相似文献   

11.
全局分析方法是一种常用而能有效改善信息检索效果的查询扩展方法。通过计算词间相似度构造M arkov网络模型;然后由此模型加强候选词集中的词相关性描述,并提取了在Markov网络中词间的团结构;通过在查询中加入查询词所在团中的其他候选词进行查询扩展。实验表明基于Markov网络团的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。  相似文献   

12.
针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。  相似文献   

13.
To eliminate the mismatch between words of relevant documents and user's query and more serious negative effects it has on the performance of information retrieval,a method of query expansion on the basis of new terms co-occurrence representation was put forward by analyzing the process of producing query. The expansion terms were selected according to their correlation to the whole query. At the same time, the position information between terms were considered. The experimental result on test retrieval conference (TREC) data collection shows that the method proposed in the paper has made an improvement of 5%~19% all the time than the language modeling method without expansion. Compared to the popular approach of query expansion, pseudo feedback, the precision of the proposed method is competitive.  相似文献   

14.
基于Dempster-Shafer理论的查询扩展模型   总被引:3,自引:0,他引:3  
查询扩展是提高信息检索召回率的有效方法,已有许多研究者提出了诸多扩展方法,但大多数方法均是简单地把扩展的词添加到查询中.这样如若不加区分原查询词和扩充词,则扩展后的查询就可能偏离原查询的语义.该文基于Dempster-Shafer证据理论,提出了一个查询扩展的计算模型,该模型把原始查询项看作主证据,扩展项为原始查询项的辅助证据,为了能组合这两类证据,该文给出了两个带权重的Dempster-Shafer组合规则,实验表明该方法能有效地提高检索效率.  相似文献   

15.
In Chinese question answering system, because there is more semantic relation in questions than that in query words, the precision can be improved by expanding query while using natural language questions to retrieve documents. This paper proposes a new approach to query expansion based on semantics and statistics Firstly automatic relevance feedback method is used to generate a candidate expansion word set. Then the expanded query words are selected from the set based on the semantic similarity and seman- tic relevancy between the candidate words and the original words. Experiments show the new approach is effective for Web retrieval and out-performs the conventional expansion approaches.  相似文献   

16.
基于特定问题类别的汉语问答系统查询扩展   总被引:1,自引:0,他引:1  
针对汉语问答系统的特点,提出一种通过统计问答对方式获得各种问题类别的关联词,并根据类别关联词进行查询扩展的方法.在计算问题和答案文本相似度时,实现了一种基于最小匹配距离的计算方法,该方法充分考虑了查询词及查询扩展词在文本中的词频及位置分布信息.实验结果说明在汉语问答系统答案文本检索中,按照问题类别关联词进行查询扩展比未进行查询扩展在性能上有很大的改进.  相似文献   

17.
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.  相似文献   

18.
一种基于同义词词典的模糊查询扩展方法   总被引:2,自引:0,他引:2  
在信息检索系统中,查询扩展是一种非常有效的改进检索性能的方法. 为此,提出一种基于同义词词典的模糊查询扩展方法. 该方法中的同义词词典是基于著名的语义词典WordNet中的同义词集合建立的,同义词之间的贴近度[0, 1]使用Tanimoto系数获得. 利用该词典,能够进行较好的查询扩展. 将该方法与向量空间模型结合应用于文本信息检索系统中,所构造的检索模型相当于一种简单的语义模型,并且可以根据阈值来控制查询扩展的程度. 所得试验结果表明,使用该查询扩展方法的信息检索系统较常规信息检索系统的检索性能有一定改善.  相似文献   

19.
对电子商务环境下货源信息搜索问题进行了分析研究,并以Internet网络为信息源,采用信息检索和人工智能相关技术,提出了基于Hopfield神经网络的货源信息搜索方法.该方法将货源信息的特征保存在Hopfield神经网络的连接权中,根据用户输入的查询词,通过网络的运行,自动生成一组查询扩展词,利用这组查询扩展词在通用搜索引擎中进行扩展搜索,并分析排序搜索结果.此方法扩大了货源搜索范围,提高了搜索精度,为企业提供了有价值的相关货源信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号