统计流形上基于核近邻算法的文本分类研究 |
| |
作者姓名: | 周世斌 白敬华 刘玉树 |
| |
作者单位: | 中国矿业大学,计算机科学与技术学院,江苏,徐州,221116;北京理工大学,计算机学院,北京,100081;北京理工大学,计算机学院,北京,100081 |
| |
基金项目: | 国家部委预研项目(504-4) |
| |
摘 要: | 为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.
|
关 键 词: | 扩散核 核近邻 狄利克雷混合多项式 文本分类 |
收稿时间: | 2009-01-08 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《北京理工大学学报》浏览原始摘要信息 |
|
点击此处可从《北京理工大学学报》下载免费的PDF全文 |
|