首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于LSI和自组织神经网络的高效文本聚类方法
引用本文:徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报(自然科学与工程技术版),2004,37(11):1026-1030.
作者姓名:徐建锁  王正欧
作者单位:天津大学系统工程研究所,天津大学系统工程研究所 天津300072,天津300072
基金项目:国家自然科学基金资助项目(60275020).
摘    要:根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度.

关 键 词:文本聚类  隐含语义索引  奇异值分解  自组织神经网络  向量空间模型
文章编号:0493-2137(2004)11-1026-05
修稿时间:2003年3月25日

An Efficient Method of Text Clustering Based on LSI and SNN
XU Jian-suo,WANG Zheng-ou.An Efficient Method of Text Clustering Based on LSI and SNN[J].Journal of Tianjin University(Science and Technology),2004,37(11):1026-1030.
Authors:XU Jian-suo  WANG Zheng-ou
Abstract:This paper presents a new method of text clustering by using the latent semantic index (LSI) and self-organizing neural network (SNN). The dynamic self-organizing neural network is applied to realizing text clustering, which needs not know the number of species in advance, and can create a new species of text in any right position. So it has some merits such as facility and high precision etc. But the speed of clustering is very slow by SNN. The new method establishes vector space model of term weight according to the theory of latent semantic index, and may eliminate disadvantageous factors. The new method decreases the number of vector by singular value decomposition in order to make up the defect of SNN, and enhances largely the speed and precision of text clustering.
Keywords:text clustering  latent semantic index  singular value decomposition  self-organizing neural network  vector space model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号