基于LDA改进的K-means算法在短文本聚类中的研究 |
| |
引用本文: | 冯靖,莫秀良,王春东.基于LDA改进的K-means算法在短文本聚类中的研究[J].天津理工大学学报,2018(3). |
| |
作者姓名: | 冯靖 莫秀良 王春东 |
| |
作者单位: | 天津理工大学计算机科学与工程学院天津市智能计算及软件新技术重点实验室 |
| |
摘 要: | 在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%.
|
本文献已被 CNKI 等数据库收录! |
|