共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
基于向量的相似度计算方案 总被引:15,自引:0,他引:15
陶跃华 《云南师范大学学报(自然科学版)》2001,21(5):17-19
在网络信息检索中,基于文档向量空间的分类、聚类、排序与相关性反馈需要计算相似度。本文就基于向量的相似度计算方案进行探讨,并论述了相似度在文档分类、聚类、排序与相关性反馈中的应用。 相似文献
3.
基于事件的文本相似度计算 总被引:2,自引:0,他引:2
大量研究成果已经表明,事件在很多文本中是客观存在的.从语义的角度理解,诸多文本是由事件组成的,事件是文本表示的最小语义单位.给出了基于事件的文本表示模型,在此模型的基础上,从文本类型相似度计算和文本内容相似度计算两个层面论述了文本相似度计算的方法. 相似文献
4.
计算文本相似度阈值的方法 总被引:8,自引:0,他引:8
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。 相似文献
5.
基于语义理解的文本相似度算法 总被引:26,自引:0,他引:26
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 相似文献
6.
李广原 《广西师范学院学报(自然科学版)》2000,17(3):50-53
在文本信息检索中,相似度是用以反映用户需求与数据库系统中文本内容的相近程度。相似度越大,表明文本越符合用户的需要,相似度越小,表明文本越不符合用户的需要。本文以属性论中的一个模型--属性重心剖分模型(又称属性坐标系)为基础,探讨属性论在文本相似度计算中的应用。 相似文献
7.
为了比较各模型的性能,研究进一步改进文本信息检索各类模型的可能方法,综合已有的试验及发表的研究报告,概述文本信息检索模型中一类模型——代数模型概念和研究现状,并分析了目前文本信息检索的相关性、相似度、召回率、准确率等概念。结果表明,这几个模型尽管来源于神经网络、向量空间等不同的思想,广义向量空间模型、潜在语义标引模型的计算复杂度比向量空间模型高,但此类模型依据评测在准确率和召回率上相近,经典向量空间模型相对而言,有简单、复杂度低和可作为检索框架,而不仅仅是检索模型的特点。为便于研究者研究、改进、评测信息检索的代数模型,介绍并评价了权威的TREC(The Text Retrieval Conference)和两个代表性的研究系统smart和lemur。 相似文献
8.
从海量无结构互联网信息中提取高质量的社会网络有着广阔的应用前景和较高的学术价值,本文以新浪微博网站作为信息源提取用户之间的共同兴趣网络,在知网文本相似度计算方法的基础上,结合用户特征词的词性分析,提出了一种结合词性的用户相似度计算方法,此方法可以计算用户之间的兴趣强度,进而构建共同兴趣网络。实验结果表明,该方法对用户类别判定的准确率有所提高,对兴趣网络的提取有较好的效果。 相似文献
9.
本文研究的内容是信息检索领域里的文本分类问题。文本分类可以在较大程度上解决信息杂乱的现象,同时它也为信息检索提供了更高效的搜索策略和更有效的搜索结果。 相似文献
10.
对链接算法在搜索引擎检索结果排序中的应用进行研究,提出基于Page Rank和锚文本对检索结果进行二次排序,合理评价网页重要程度.实验结果表明,该方法在一定程度上能提高检索效果. 相似文献
11.
12.
路节 《河北大学学报(自然科学版)》1994,(3)
本文结合《宋代文献资料微机检索系统》的研制过程,讨论了受控文献检索、全文本检索与专题处理的有关概念,提出了适合于史料文献检索系统的全文本/专题检索系统模式。 相似文献
13.
对基于校园网的信息智能检索系统的特点作了介绍。详细分析了基于校园网的信息智能检索系统的构成、原理和各个组成单元的情况。最后,得出该信息智能检索系统的结论。 相似文献
14.
为提高信息检索中检索结果的查准率,提出了基于句法分析以及带权路径长度的句子相似度计算方法。该方法首先对用户问句进行了分词、词性标注以及句法分析处理,并根据处理后的结果对该句进行了关键词提取、加权和同义词近义词扩展处理。然后提出了基于带权路径长度计算的方法,并用该方法计算用户问句与检索信息标题句之间的相似度,即问句的带权路径长度与标题句的带权路径长度的相对比值,以此对检索结果进行二次排序,提高检索结果查准率。实验表明,该句子相似度方法能有效地提高信息检索中检索结果的查准率。 相似文献
15.
16.
针对当前信息交互效率不高的问题,通过对智能推送技术的分析,提出智能推送系统平台的基本架构。并结合物资管理系统,详细分析了智能推送技术的应用领域及其具体实现的关键技术。 相似文献
17.
实例推理检索中相似度量方法的研究 总被引:14,自引:1,他引:14
在实例推理检索过程中 ,通过相似特征度量方法完成最相似实例检索 ,采用粗集理论判断实例特征属性的重要性 ,把最反映本质的相似特征属性用来进行相似度量 ,使度量结果比较客观地反映出实例和待解问题的相似程度 ,提高了实例检索的准确性。 相似文献
18.
图像检索中相关性反馈模型研究 总被引:2,自引:0,他引:2
相关性反馈是图像检索中一个重要的组成部分。本文介绍了文本检索中相关性反馈技术及相关性反馈模型。在此基础上,引入基于内容的图像相关性反馈技术及相关性反馈模型。 相似文献
19.
李雪梅 《西南师范大学学报(自然科学版)》1998,23(3):284-288
WWW是一种基于超文本的信息发布工具,目前已成为Internet网络信息检索方式的主流,并大有发展成为网络标准检索工具的趋势.概括地介绍了Internet网上WWW及其在情报检索中的应用和存在的问题. 相似文献
20.
在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的。在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法。实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率。 相似文献