一种新颖的词聚类算法 A NOVEL WORD CLUSTERING ALGORITHM期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种新颖的词聚类算法

引用本文：	袁里驰,钟义信.一种新颖的词聚类算法[J].四川大学学报(自然科学版),2004,41(Z1):522-525.

作者姓名：	袁里驰钟义信

作者单位：	北京邮电大学信息工程学院,北京,100876

摘要：	基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.
关键词：	词相似度词聚类统计语言模型
A NOVEL WORD CLUSTERING ALGORITHM

YUAN LIchi,ZHONG Yixing.A NOVEL WORD CLUSTERING ALGORITHM[J].Journal of Sichuan University (Natural Science Edition),2004,41(Z1):522-525.

Authors:	YUAN LIchi ZHONG Yixing

Abstract:

Keywords:
本文献已被万方数据等数据库收录！