首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 106 毫秒
1.
针对向量空间模型特征项正交的假设和缺乏语义的缺点,本文在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。  相似文献   

2.
词语之间相似度的计算广泛应用于信息检索、文本主题抽取、文本分类、机器翻译等研究领域.词语之间的相似度的计算通常有两方法,基于统计的方法和基于世界知识的方法.对于中文的词语相似度计算,有人提出一种利用《知网》计算词语相似度的方法,该方法通过计算《知网》义原的相似度进而计算词语的相似度,但是该方法在计算义原相似度时没有考虑义原在层次体系树上的深度以及区域密度.在此基础之上深入研究《知网》的义原层次体系,将义原在层次体系树上的深度和区域密度两个因素添加到义原相似度计算中.最后,实现了该计算方法并得到实验结果,将实验结果与改进前的计算方法的结果比较,发现考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这两个因素得到结果更符合实际.  相似文献   

3.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

4.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

5.
基于《知网》的词语相似度计算研究   总被引:2,自引:0,他引:2  
词语之间相似度的计算通常有基于统计和基于世界知识2种方法.中文词语相似度的计算,可以通过计算义原的相似度进而计算词语的相似度,在此基础之上深入分析《知网》的义原层次体系,提出了一种将义原在层次体系树上的深度和区域密度2个因素添加到义原相似度计算中的方法.通过实验发现,考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这2个因素得到结果更符合实际.  相似文献   

6.
基于知网的语义相关度计算   总被引:24,自引:0,他引:24  
为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理.  相似文献   

7.
词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%.  相似文献   

8.
由于现有的经典本体映射方法以及相似度计算方法无法处理模糊信息,因此它们都无法计算模糊概念之间的相似度.为此,提出了一种新的基于向量空间模型的模糊概念相似度计算方法SimFC-VSM(similarityoffuzzyconceptbasedonvectorspacemodel).SimFC-VSM方法首先利用模糊本体中的模糊关系构建向量空间模型;然后将模糊概念表示成此向量空间模型中的向量;最后通过向量运算的方法来计算模糊概念之间的相似度.因此,所提出的方法SimFC-VSM可以有效地利用向量空间模型来计算模糊概念之间的相似度.  相似文献   

9.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

10.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

11.
田正军  张鸿彦 《河南科学》2007,25(2):282-284
电子邮件作为因特网一个主流的应用日益成为网络使用者不可缺少的工具,随之而来的垃圾邮件也越来越猖獗,对邮件的分类、检测与过滤显得尤为迫切.利用文本自动分类器,将接收到的邮件转换为向量表示,通过计算向量的相似度对其分类,方便用户使用.  相似文献   

12.
「きる」的语义特征及语义结构模式   总被引:1,自引:0,他引:1  
日语"切断"事件动词「きる」具有多义性。根据日语语言学者提出的词典释义、添加成分等语义特征提取途径,分析并提取出「きる」的四个基本语义特征;通过探讨影山"动作链的语义结构模式",结果显示:动词「きる」不仅蕴含动作义,同时蕴含变化义和结果状态义,结果状态义是其核心语义。  相似文献   

13.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

14.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

15.
一种改进的词汇语义极性分析算法*   总被引:1,自引:1,他引:0  
词汇极性分析在自然语言处理等多个领域发挥着重要的作用。针对现有汉语词汇极性分析对词汇的义原考虑的不够全面,使得极性分析存在不准确的问题,提出一种更有效的词汇语义倾向性计算方法。首先找准一组褒贬中性词库,进而提取出待测词与词库中基准词词汇的极性义原、词性、其他义原,计算相应的相似度;并分别给出合适的权重值。由此计算出待测词与基准词的相似度,最后判断待测词的语义极性。实验表明该算法可以进一步的提高语义极性倾向判别准确率。  相似文献   

16.
针对在线抗议预测技术中忽视用户文本时序差异性及用户间高阶交互拓扑的问题,提出融合时序文本与高阶交互拓扑的在线抗议预测方法.基于自注意力机制建模用户不同时刻交互文本信息对其抗议倾向的影响,构建用户文本表示向量;同时利用邻域节点的相似性,构建二阶相似性保持的用户交互拓扑表示向量;融合用户文本表示向量和交互表示向量预测用户抗议倾向.推特数据集结果表明本方法准确率可达到93.9%,为抗议活动预测提供技术支撑.   相似文献   

17.
为了提升检索结果与用户个性化需求的符合程度,依托向量空间模型提出一种新的检索方法.将用户查询关键词和语料库内的文本信息都映射为向量,从而把检索过程转化为向量相似性的比对.在比对过程中,通过关键词权重突出用户个性化需求,通过余弦相似度判断符合程度.实验结果表明:文中方法的检索结果与用户需求的符合程度明显提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号