一种新的中文词自动聚类算法 |
| |
引用本文: | 孙静,朱杰,徐向华.一种新的中文词自动聚类算法[J].上海交通大学学报,2003,37(Z1):139-142. |
| |
作者姓名: | 孙静 朱杰 徐向华 |
| |
作者单位: | 上海交通大学,电子工程系,上海,200030 |
| |
基金项目: | 上海市科学技术委员会基础研究项目(01JC14033)和美国贝尔实验室上海分部的资助项目 |
| |
摘 要: | 基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.
|
关 键 词: | 自动聚类 分类语言模型 困惑度 相似度 算法 |
文章编号: | 1006-2467(2003)S1-0139-04 |
修稿时间: | 2002年7月12日 |
A New Algorithm of Chinese Words Automatic Clustering |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|