首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于t-分布随机近邻嵌入的文本聚类方法
引用本文:徐秀芳,徐森,花小朋,徐静,皋军,安晶.一种基于t-分布随机近邻嵌入的文本聚类方法[J].南京大学学报(自然科学版),2019(2).
作者姓名:徐秀芳  徐森  花小朋  徐静  皋军  安晶
作者单位:盐城工学院信息工程学院;江苏省媒体设计与软件技术重点实验室(江南大学);盐城工学院机械工程学院
摘    要:文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号