首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种新颖的词聚类算法
引用本文:袁里驰,钟义信.一种新颖的词聚类算法[J].四川大学学报(自然科学版),2004,41(Z1):522-525.
作者姓名:袁里驰  钟义信
作者单位:北京邮电大学信息工程学院,北京,100876
摘    要:基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.

关 键 词:词相似度  词聚类  统计语言模型

A NOVEL WORD CLUSTERING ALGORITHM
YUAN LIchi,ZHONG Yixing.A NOVEL WORD CLUSTERING ALGORITHM[J].Journal of Sichuan University (Natural Science Edition),2004,41(Z1):522-525.
Authors:YUAN LIchi  ZHONG Yixing
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号