共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度。实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性。 相似文献
3.
基于知网的领域概念抽取与关系分析研究 总被引:2,自引:0,他引:2
唐一之 《湘潭大学自然科学学报》2009,31(1)
针对目前领域概念抽取手工完成的现况,提出了一种基于知网的领域概念抽取和关系分析系统模型.本模型利用知网语义相关性从文本中生成领域语义词典,结合TFIDF算法建立"词-文本文档矩阵",用以代替传统的词形频率统计;通过产生领域语义本体,利用语义相似度对概念进行聚类.讨论了这3个步骤所涉及的算法,包括基于统计模式从文本中抽词,基于奇异值分解从词-文档矩阵中提取概念,基于语义相似度对概念进行聚类等.实验表明,本文提出的抽取方法相对与词频算法具有较高的准确度. 相似文献
4.
基于异或编辑距离算法的航班号相似度研究 总被引:1,自引:0,他引:1
航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了航班号相似度计算的异或编辑距离算法,并利用北京区域管制中心的实际运行数据验证了该算法的可行性.根据该方法计算了国内主要航空公司的平均相似度,相关结果可为航班号的分配提供定量参考. 相似文献
5.
6.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化. 相似文献
7.
李广原 《广西师范学院学报(自然科学版)》2000,17(3):50-53
在文本信息检索中,相似度是用以反映用户需求与数据库系统中文本内容的相近程度。相似度越大,表明文本越符合用户的需要,相似度越小,表明文本越不符合用户的需要。本文以属性论中的一个模型——属性重心剖分模型(又称属性坐标系)为基础,探讨属性论在文本相似度计算中的应用。 相似文献
8.
《应用科学学报》2019,(3)
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 相似文献
9.
《哈尔滨师范大学自然科学学报》2017,(2)
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性. 相似文献
10.
《应用科学学报》2019,(2)
目前,大多数图像取证方法对彩色图像的处理是将其转换为灰度图像,从而导致了彩色图像的颜色信息不能被有效且充分地利用.针对此问题提出一种基于四元数主成分分析(quaternion principal component analysis, QPCA)的复制粘贴篡改检测方法.该方法充分利用了彩色图像的各个颜色通道及它们之间的相关性,能够有效提高篡改区域的识别度.运用基于图像块的检测方法,首先将图像分块后对所有块进行QPCA计算以提取特征,然后用字典排序获取相似块的移位向量,最后根据移位向量频数与阈值的比较确定篡改区域.实验结果表明,所提方法的误检漏检率低于现有方法,检测准确率有较大提高. 相似文献
11.
12.
概念相似度评估广泛应用于概念分类、概念聚合、概念合并等工作中.以往面向单本体概念相似度计算模型的工作虽然集中在概念特征匹配和语义分析之上,但考虑的要素单一或考虑要素的内容不全,所以计算结果精度不高,不利于概念关系的深层挖掘.该文完善概念的共性匹配,把概念间同时不具备的特征作为共性的一部分,并对概念格中不同层次的语义特征进行加权,从而提出一种具有高精度的面向单本体的概念相似度计算模型.实验数据表明该模型具有较高的精度. 相似文献
13.
14.
15.
《湖南师范大学自然科学学报》2016,(5)
提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用DML方法为不同类别的文本学习马氏距离矩阵,从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上,利用常用的KNN及SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明,该方法提高了文本分类的准确率,并且在不同的隐含主题数目参数下能体现较好的稳定性. 相似文献
16.
《湖南师范大学自然科学学报》2015,(5)
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果. 相似文献
17.
一种基于SOM和层次凝聚的中文文本聚类方法 总被引:2,自引:0,他引:2
研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间,通过数值实验对比表明该方法对中文文本聚类具有有效性。 相似文献
18.
提出了基于最大边缘相关(maximal marginal relevance,MMR)的新闻摘要方法以及基于支持向量机(support vector machine,SVM)和MMR相结合的新闻摘要方法。其中,第1种方法是对传统MMR模型进行了改进,第2种方法使用了改进MMR模型对SVM分类结果进行了二次选择。实验表明:相比于传统MMR模型,该文提出的基于改进MMR的摘要方法和基于SVM-MMR的摘要方法的平均准确率分别提升了0.148、0.204,且基于MMR的新闻摘要方法的摘要效率约为基于SVM-MMR的摘要方法的3倍。改进的MMR算法更加适用于对摘要效率要求高的应用场景,特别是对长文本进行摘要。基于SVM-MMR的摘要方法则更适用于生成对文本内容覆盖相对全面的摘要。 相似文献
19.
《湖南师范大学自然科学学报》2016,(3)
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性. 相似文献
20.
针对现有文本情感分析方法实时性不强、难以应用到大规模文本、不能同时提取文本上下文信息和局部语义特征等问题,提出一种融合双向长短期记忆(LSTM)和卷积神经网络(CNN)的混合情感分析模型通过使用双向LSTM和CNN模型对由word2vec编码得到的文本词向量进行训练,运用注意力机制将双向LSTM模型学习到的特征作用于CNN模型上,并进行特征加权,最后将双向LSTM模型和CNN模型得到的结果进行拼接,由分类器得到相应的情感分类结果在NLPCC SCDL数据集上进行实验,结果表明所提出的融合双向LSTM和CNN模型在精度、召回、f1值和准确度方面优于两个单独的模型 相似文献