首页 | 本学科首页   官方微博 | 高级检索  
     

基于《知网》义原空间的文本相似度计算
引用本文:肖志军. 基于《知网》义原空间的文本相似度计算[J]. 科学技术与工程, 2013, 13(29)
作者姓名:肖志军
作者单位:玉林师范学院
基金项目:广西教育厅科研项目(201204LX350)
摘    要:针对向量空间模型特征项正交的假设和缺乏语义的缺点,本文在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。

关 键 词:向量空间模型;广义向量空间模型;正交特征项;《知网》;文本语义相似度;
收稿时间:2013-06-06
修稿时间:2013-06-06

Text Similarity computing based on HowNet sememe space
XIAO ZhiJun. Text Similarity computing based on HowNet sememe space[J]. Science Technology and Engineering, 2013, 13(29)
Authors:XIAO ZhiJun
Abstract:For the shortcomings of pairwise orthogonal terms assumption and lacking of sematic meaning in Vector Space Model, this paper proposes a new method basing on General Vector Space Model and using the similarity of HowNet sememes to calculate text similarity. According to TF-IDF weight of text terms, texts are transformed into vectors of HowNet sememe space. The included angles of text vectors are used to calculate the text similarity. By text clustering contrast experiment with VSM and GVSM to verify the proposed method, the result shows that the proposed method has achieved a better performance at text sematic similarity computing.
Keywords:VSM   GVSM   orthogonal term   HowNet   text semantic similarity  
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号