计算文本相似度阈值的方法 |
| |
引用本文: | 刁力力,王丽坤,陆玉昌,石纯一. 计算文本相似度阈值的方法[J]. 清华大学学报(自然科学版), 2003, 43(1): 108-111 |
| |
作者姓名: | 刁力力 王丽坤 陆玉昌 石纯一 |
| |
作者单位: | 清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084 |
| |
基金项目: | 国家自然科学基金资助项目(79990580),国家重点基础研究发展规划项目(G1998030414) |
| |
摘 要: | 基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。
|
关 键 词: | 数据挖掘 文本挖掘 文本分类 Boosting机器学习方法 相似度 |
文章编号: | 1000-0054(2003)01-0108-04 |
修稿时间: | 2001-12-21 |
Computing similarity threshold for text classification |
| |
Abstract: | |
| |
Keywords: | data mining text mining text categorization boosting learning similarity |
本文献已被 CNKI 万方数据 等数据库收录! |
|