首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于加权语义网的改进文本相似度计算方法
引用本文:张弛,张贯虹,周艳玲.基于加权语义网的改进文本相似度计算方法[J].邵阳学院学报(自然科学版),2019(3).
作者姓名:张弛  张贯虹  周艳玲
作者单位:合肥学院计算机科学与技术系
摘    要:为了提高特征词权重和文本语义相似度计算的精确性,文章提出了一种基于加权语义网的改进文本相似度计算方法。该方法首先以特征词为节点,以特征词窗口共现原理创建边,以频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)值作为特征词节点的初始权值,融合共现频率和概念语义距离自定义边权重计算方法,构建加权文本语义复杂网络。然后使用语义网络中特征词综合特征指数排名靠前的m个词组成特征向量,利用搬土距离(earth mover's distance,EMD)衡量两个文本间的语义相似度。最后基于公开数据集对文本进行聚类实验,实验结果表明,在基于F1度量值标准上文章提出的方法要优于传统的文本相似度计算方法。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号