一种基于t-分布随机近邻嵌入的文本聚类方法 |
| |
引用本文: | 徐秀芳,徐森,花小朋,徐静,皋军,安晶.一种基于t-分布随机近邻嵌入的文本聚类方法[J].南京大学学报(自然科学版),2019(2). |
| |
作者姓名: | 徐秀芳 徐森 花小朋 徐静 皋军 安晶 |
| |
作者单位: | 盐城工学院信息工程学院;江苏省媒体设计与软件技术重点实验室(江南大学);盐城工学院机械工程学院 |
| |
摘 要: | 文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性.
|
本文献已被 CNKI 等数据库收录! |
|