首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
为了比较各类模型的性能,研究进一步改进文本信息检索各类模型的可能方法,综合已有的试验和研究报告,概述了文本信息检索模型中一类模型——代数模型概念和研究现状,并分析了目前文本信息检索的相关性、相似度、召回率、准确率等概念。结果表明,这几个模型尽管来源于神经网络、向量空间等不同的思想,广义向量空间模型、潜在语义标引模型的计算复杂度比向量空间模型高,但此类模型依据评测在准确率和召回率上相近,经典向量空间模型相对而言,有简单、复杂度低和可作为检索框架,而不仅仅是检索模型的特点。为便于研究者研究、改进、评测信息检索的代数模型,评价了权威的TREC(The Text Retrieval Conference)和两个代表性的研究系统Smart和Lemur。  相似文献   

2.
本文介绍了在向量空间模型下,使用Cosine-Measure和OKAPI-Measure两种不同的相似度评测方法,来评测查询与文本之间的相关性。通过针对10字以内的短查询的实验分析,作者发现在相同召回率的情况下,使用OKAPI法来计算相似度得到的检索结果,准确率要比Cosine法的高。  相似文献   

3.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

4.
基于向量空间的信息检索模型VSM,以其简洁直观、检索结果和排序效果良好等优点,在信息检索领域得到普遍的应用。文章结合藏文文本的特点,研究VSM在藏文文本信息检索中的应用方法。  相似文献   

5.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

6.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

7.
面向以自然语言描述的生物领域实例,基于自然语言的向量表示模型,研究与设计相关的生物领域实例获取问题,提出了基于文本挖掘的生物领域实例获取方法.通过对语料库文本向量空间的构建和知识挖掘,研究生物领域文本的特征选择、相似性度量和实例检索方法,为设计需求驱动的生物领域实例获取提供技术支持.实例分析表明:一方面,基于向量空间模型的生物领域文本挖掘方法在精度和召回率两方面均较基线法具有较大的优势;另一方面,基于向量空间的文本检索机制具有很好的适应性和扩展性,可以满足不同环境下语义检索的需要.  相似文献   

8.
基于改进汉宁窗的信息检索模型   总被引:5,自引:4,他引:1  
基于关键词匹配的检索方法检索时间长,检索结果质量差,无法适应用户群体的多样性。在此考虑了检索词含义、顺序及词密度,首先对用户提出的检索词进行基于知网的概念扩展,从词所表达的概念意义层次上来认识和处理用户的检索请求,并提出了基于改进汉宁窗的信息检索模型。实验表明,基于改进汉宁窗的信息检索模型较传统的基于关键词匹配的检索算法有更高的查准率及召回率,有效地改善了检索性能,可以更好地为用户提供检索服务。  相似文献   

9.
文本信息检索技术   总被引:4,自引:0,他引:4       下载免费PDF全文
论述3种常用的文体信息检索技术,即布尔检索,向量空间检索和概率检索,对它们的优缺点进行评价,并对文本信息检索技术进行了展望。  相似文献   

10.
基于循环结构的卷积神经网络文本分类方法   总被引:1,自引:0,他引:1  
现有卷积神经网络在文本分类性能上受到词向量窗口长度的影响,在研究卷积神经网络分类方法的基础上,提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息,整体算法时间复杂度为O(n),是线性复杂度;该方法构建文本语义模型可以捕获长距离的依赖关系,使得词向量窗口长度对文本分类性能没有影响,对上下文更有效地建模。实验结果表明,该方法构建文本语义模型的准确率达到96.86%,召回率达到96.15%,F1值达到96.5%,性能优于传统文本分类算法和卷积神经网络方法。  相似文献   

11.
为了解决传统检索技术无法为用户提供个性化服务和检索效率低的问题,提出了一种基于领域本体的个性化文本信息检索模型,阐述了该模型的结构和关键算法,并验证了算法的可行性。实验结果表明:基于领域本体的个性化文本信息检索能有效提高信息检索的准确率和效率。  相似文献   

12.
在领域知识库的构建过程中,领域概念的识别是一项非常重要的步骤。当前基于统计方法仅按词频进行领域概念的识别,而一些较长的重要领域概念恰恰是低频词,因而对低频领域概念识别准确率不高。为了提高低频领域概念的识别准确率,本文提出了一种基于词向量的加权HITS算法。此方法首先将开放文本中的领域概念表示为词向量,然后使用加权HITS算法计算其领域相关度,最终筛选出领域相关度超过一定阈值的领域概念构建领域知识库。实验证明,本文提出的方法与现有方法相比,在领域概念识别的准确率和召回率方面有一定的改进。特别地,该方法将低频领域概念识别召回率提高了10%。  相似文献   

13.
为了提高信息检索系统检索性能,针对信息检索系统中普遍使用的向量空间模型(VSM)所固有的缺陷,提出一种新的基于分类和扩展向量空间模型CE-BVSM(Classifier and Expand-Based Vector Space Model)。该模型对传统的空间向量法进行了改进,引入分词技术、朴素贝叶斯分类器和专业词库,重新定义了资源特征向量和查询索引项的内容,参考关键词出现的频率及其在所描述的资源中所起的作用等因素来计算特征索引项和资源向量的权重值。在此基础上,又对查询索引项使用了基于专业词库的扩展策略。实验证明该模型使检索能够在相对精确的范围内进行,提高检索查准率和查全率,改善了信息检索系统的性能。  相似文献   

14.
为了对频繁更新的文档信息进行有效检索,提出了一种基于贝叶斯的N-Gram统计信息检索模型(Bayesian-based N-Gram,BNG).BNG模型无需对所有文档信息进行重新学习,只需根据新增的文档信息自适应地调整BNG模型的权值,以突出各个词语、文档对语义空间不同的贡献程度.实验结果表明,与现有的统计信息模型相比,提出的BNG模型显著地提高了检索的准确率与召回率.  相似文献   

15.
为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.  相似文献   

16.
在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的.  相似文献   

17.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

18.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

19.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

20.
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号