几种基于统计的词聚类方法比较 |
| |
作者姓名: | 袁里驰 |
| |
作者单位: | 1.江西财经大学信息管理学院,数据与知识工程江西省高校重点实验室 |
| |
基金项目: | 国家自然科学基金资助项目(61262035,61562034);江西省自然科学基金资助项目(20142BAB207028);江西省科技支撑计划项目(20151BBE50082);江西省教育厅科技项目(GJJ14335)~~ |
| |
摘 要: | 基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法。研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题。
|
关 键 词: | 自然语言处理 词聚类 互信息 词相似度 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《中南大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《中南大学学报(自然科学版)》下载全文 |
|