基于词向量和ＥＭＤ距离的短文本聚类期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于词向量和ＥＭＤ距离的短文本聚类

摘要：	短文本聚类在数据挖掘中发挥着重要的作用，传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题，针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题，提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Ｓｋｉｐ-ｇｒａｍ模型（ＣｏｎｔｉｎｕｏｕｓＳｋｉｐ-ｇｒａｍＭｏｄｅｌ）在大规模语料中训练得到表示特征词语义的词向量；然后利用欧式距离计算特征词相似度，引入ＥＭＤ（ＥａｒｔｈＭｏｖｅｒｓＤｉｓｔａｎｃｅ）来计算短文本间的相似度；最后将其应用到Ｋｍｅａｎｓ聚类算法中实现短文本聚类。在３个数据集上进行的评测结果表明，效果优于传统的聚类算法。
本文献已被 CNKI 等数据库收录！