首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种新的中文词自动聚类算法
引用本文:孙静,朱杰,徐向华.一种新的中文词自动聚类算法[J].上海交通大学学报,2003,37(Z1):139-142.
作者姓名:孙静  朱杰  徐向华
作者单位:上海交通大学,电子工程系,上海,200030
基金项目:上海市科学技术委员会基础研究项目(01JC14033)和美国贝尔实验室上海分部的资助项目
摘    要:基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.

关 键 词:自动聚类  分类语言模型  困惑度  相似度  算法
文章编号:1006-2467(2003)S1-0139-04
修稿时间:2002年7月12日

A New Algorithm of Chinese Words Automatic Clustering
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号