首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

2.
针对基于关键词匹配的搜索引擎存在的问题,提出一种基于语义词典的局部查询扩展方法,首先利用共现分析法和语义相似度选取扩展词,再对原始查询词和扩展词加权,最后计算文档相似度从而获得排序后的扩展查询结果.该方法克服了其它局部扩展方法将大量无关词加入查询的问题.实验表明,该方法有效地提高了查询结果的查准率.  相似文献   

3.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

4.
传统数据库只管理确定性信息.但在许多应用中涉及大量不确定数据。本文把概率数据引入XML文档中.提出概率XML文档树、概率XML模式树、概率XML文档树符合概率XML模式树的定义;给出了概率XML Twig查询树和概率XML Twig查询匹配的定义,最后提出了计算概率XML Twig查询结果概率的定理。  相似文献   

5.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

6.
在汉语问答系统中,当用自然语言问句进行文档检索时,由于问句比查询词包含更多的语义信息,因此必须进行查询词扩展以提高信息检索的性能.通过分析已有的查询扩展方法,提出了基于集合论的查询扩展新方法.它结合了3种传统的查询扩展方法:语义词典法、自动相关反馈法和问题类型词.实验结果表明该方法在Web检索方面是有效并且优于传统的方法.  相似文献   

7.
一种词汇共现算法及共现词对检索系统排序的影响   总被引:6,自引:0,他引:6  
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法.  相似文献   

8.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

9.
中文信息的潜在语义分析   总被引:3,自引:0,他引:3  
潜在语义分析是一种基于潜概念索引的检索技术.文中首先综述了潜在语义分析的理论及方法,并且解释其数学意义;然后通过一个简单示例中文档间、词语间相关度的变化来说明潜在语义分析的作用;最后引入文档自检索矩阵的概念来检验潜在语义分析的检索效果.实验结果进一步说明了潜在语义分析在信息检索领域中有着重要的应用价值.  相似文献   

10.
查询推荐是一种帮助搜索引擎更好的理解用户检索需求的方法.基于查询的上下文片段训练词汇和查询之间的语义关系,同时结合查询和URL的点击图以及查询中的序列行为构建Term-Query-URL异构信息网络,采用重启动随机游走(Random Walk with Restart,RWR)进行查询推荐.综合利用语义信息和日志信息,提高了稀疏查询的推荐效果.基于概率语言模型构造查询的词汇向量,可以为新的查询进行查询推荐.在大规模商业搜索引擎查询日志上的实验表明本文方法相比传统的查询推荐方法性能提升约为3%~10%.  相似文献   

11.
采用潜在语义分析实现查询接口特征-文档矩阵降维,利用KNN算法将用户查询接口归属到某个类别,以减少匹配计算的接口数量,最后采用基于Word Net的方法在此类别中进行接口属性匹配,减小属性匹配范围。实验证明,此方法能够实现查询接口的有效匹配。  相似文献   

12.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。  相似文献   

13.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk-Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。
  相似文献   

14.
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%.  相似文献   

15.
基于本体的信息检索系统模型   总被引:5,自引:0,他引:5  
针对基于关键字的传统查询方法存在的不足,提出一种面向语义查询的信息检索模型.该模型将信息检索方法与语义Web技术相结合,通过基于本体的知识库实现用户对文档库的语义查询;同时,综合考虑语义检索和关键字检索两种情况,提出一种相似度计算方法,有效地满足了用户对Web信息资源的要求,并为以后的语义检索研究奠定了理论基础.  相似文献   

16.
中文文档与源代码间关联关系提取方法的研究   总被引:1,自引:0,他引:1  
文章提出了一种提取中文软件文档与源代码间的关联关系的方法,根据中文软件文档和源代码的一些特征,在潜在语义索引模型的基础上使用了3种策略:引入项目数据词典辅助中文分词和中英文的翻译、将文档按类型分层以实现反馈、调整代码中的特征项的权值。实验结果表明,同时使用3种策略可以在提取阀值C相同的情况下,提高查全率4%~28%,在查全率不变的情况下,提高查准率8%~30%。  相似文献   

17.
E-Score查询算法返回元组期望最大的k个结果,常常不能适应更高级客户的查询需求,语义需要改进使得更加合理.本文把位置概率引入进E-score语义,定义了一个新的Topk查询语义——带有位置概率的期望得分排序(PPE-Score),并基于位置概率对算法进行修枝剪枝形成相应算法.最后用实验验证新剪枝算法的有效性.  相似文献   

18.
基于领域本体的自动化语义标注方法的研究   总被引:1,自引:0,他引:1  
介绍了语义网,本体以及语义标注的基本概念,对现有的语义标注方法以及技术进行了说明和分析.针对目前互联网上含有大量语义信息的HTML文档,提出了一种自动化的语义标注的方法.该方法对HTML文档进行结构分析,并参照词汇数据库Hownet和领域本体对文档进行语义分析,找出文档对应的语义分类树,给文档加上语义标签.以电子消费品领域的HTML文档为实验对象,实验结果证明了该方法具有一定的可行性.  相似文献   

19.
基于Markov网络的检索模型   总被引:2,自引:0,他引:2  
基于Markov网络的信息检索模型提出一种贝叶斯网络推广的检索模型,该模型利用词项在文档集中的共现信息来构造Markov网络,通过该索引项子Markov网络来加载附加查询证据源,计算文档与查询之间的相关性概率,由此概率进行文档排序. 实验结果表明,本文提出的Markov网络模型比其他传统的检索方法具有更优的检索性能.  相似文献   

20.
概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法. 该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 NewsGroups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号