首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

2.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

3.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk-Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。
  相似文献   

4.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。  相似文献   

5.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

6.
文本和用户查询用属性坐标表示,以交点与查询重心点的距离确定为文本与查询间的相似度进行计算,利用相关性反馈技术调整检索策略,得到一个基于属性坐标的文本信息检索模型.实验表明,该模型的检索方法可行,检索效果较好.  相似文献   

7.
针对信息检索模型检索性能的问题,将本体及本体语义相似度度量方法运用于基于贝叶斯网络的信息检索模型中,通过利用领域本体表达信息的规范性及本体语义推理的准确性对查询需求进行扩展,提高查询的性能。给出了信息检索模型和概念语义相似度计算及查询检索方法与过程,实验证明该方法在一定程度上能够提高检索系统的性能。  相似文献   

8.
本文介绍了在向量空间模型下,使用Cosine-Measure和OKAPI-Measure两种不同的相似度评测方法,来评测查询与文本之间的相关性。通过针对10字以内的短查询的实验分析,作者发现在相同召回率的情况下,使用OKAPI法来计算相似度得到的检索结果,准确率要比Cosine法的高。  相似文献   

9.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

10.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

11.
为了解决传统依据关键字、概念和属性值等检索技术没有考虑不同主体中情报信息间的语义关系,无法提供令用户满意的情报检索结果问题,通过语义Web方法研究了多功能情报信息自适应检索技术。设计基于语义Web的多功能情报信息自适应检索模型,检索模型包括人机交互层、知识处理层以及知识存储层。在知识存储层建立本体语义模型。在知识处理层,从检索的多功能情报信息关键词中推断和其语义有关的概念,依据概念有关词汇对原始查询进行扩展,对语义相似度进行计算。在人机交互层,将用户反馈情况看作判断检索结果优劣的衡量因素,依据相似关键词获取相似结果集,按照反馈因子完成对所有相似结果的排序,把排序结果发送给用户,实现多功能情报信息自适应检索。结果表明,所提方法能够同时保证召回率与精度;排序误差率低;检索结果和用户查询结果最相符,检索结果准确,可令用户满意。可见所提方法检索性能强。  相似文献   

12.
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%.  相似文献   

13.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

14.
知识图谱是将无结构的知识进行结构化表示和组织的有效途径,已经成为支持众多智能应用的基础设施.然而,与商品相关的知识通常呈现出海量性、异质性和层次性的特点,这对现有基于关系模型和图模型的知识查询处理方法提出了挑战.针对商品知识的这些特点,本文设计与实现了一种利用CPU和GPU协同计算的商品知识查询处理方法.首先,为了充分发挥GPU的并行计算能力,提出了一种基于稀疏矩阵的商品知识存储策略,并针对商品知识进行存储优化;其次,根据稀疏矩阵的存储结构设计了一种查询转换方式,将SPARQL查询转化为对应的矩阵计算,并将连接查询算法扩展到GPU上进行加速.为了验证所提出方法的有效性,我们在LUBM数据集和一个半合成的商品数据集上进行了一系列的实验.结果表明,本文提出的方法,不仅在海量商品知识下相对于现有RDF查询引擎在检索效率上有较大提升,而且在通用的RDF标准数据集上也能取得较好的检索性能,并验证了GPU加速查询处理的有效性.  相似文献   

15.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

16.
细粒度语义网检索   总被引:6,自引:0,他引:6  
语义网的有向标记图数据模型决定其在内容检索方面与纯文本、超文本或半结构化文档检索存在较大差异.现有检索模型和相似度计算方法不能完全满足对语义网的检索和评价.该文以资源这种较细粒度作为检索单元,考虑查询关键字在资源内容中的频率和结构分布,提出一个细粒度语义网检索模型,并扩展了相似度计算公式和倒排索引结构.在语义网挖掘系统(semantic web aiding rich miningsystem,SWARMS)中实现了该模型及相关算法.在SourceForge和DBLP两个测试集上的实验表明,该模型能够结合语义网结构查询与基于关键字的内容查询,在相同查全率下查准率是单独应用结构或内容查询的两倍左右.  相似文献   

17.
双语影视知识图谱的构建研究   总被引:1,自引:0,他引:1  
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO), 将各个影视数据源对齐到BMO, 以保持异构数据源的语义描述一致性。在知识链接方面, 在充分挖掘和利用领域特征的基础上, 采用基于Word2Vec 和TFIDF 两种向量模型的实体相似度计算方法, 使相似度特征增加一倍, 大大提升了模型的链接效果。在实体匹配方面, 提出基于相似度传播算法的实体匹配算法, 并利用影视数据源之间的内在联系, 克服了跨语言实体之间计算相似度的语言障碍。实验结果表明, 当阈值取到0.75 以上时, 实体匹配的准确率都能达到90% 左右。此外, 还建立了影视知识图谱共享平台, 并提供开放性的数据访问和查询接口。  相似文献   

18.
针对向量空间模型特征项正交的假设和缺乏语义的缺点,本文在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。  相似文献   

19.
提出一种定性地理信息检索方法, 用于地理信息的定性表达、语义匹配、推理和结果排序, 可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息, 将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度, 分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元, 采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息, 并对相关文档进行排序。这种检索和排序方法符合人类空间认知, 因此可以有效提高地理信息检索的效率。  相似文献   

20.
基于智能聚类的相关度内容检索方法   总被引:3,自引:0,他引:3  
为了提高内容检索的相关度与检索效率,基于信息系统理论与自组织神经网络理论,提出基于智能聚类的相关度检索方法,并设计了检索算法.经过训练的自组织神经网络通过对查询需求进行聚类,使得内容的检索只在与查询需求同类的文本内容中进行,提高了检索效率,并通过在同一个向量空间对查询向量与文本内容的语义向量进行相似度衡量,为用户选择更相关的内容提供依据.设计开发了基于智能聚类的内容检索试验平台,验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号