计算文本相似度阈值的方法 Computing similarity threshold for text classification期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

计算文本相似度阈值的方法

引用本文：	刁力力,王丽坤,陆玉昌,石纯一. 计算文本相似度阈值的方法[J]. 清华大学学报(自然科学版), 2003, 43(1): 108-111

作者姓名：	刁力力王丽坤陆玉昌石纯一

作者单位：	清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084

基金项目：	国家自然科学基金资助项目(79990580)，国家重点基础研究发展规划项目(G1998030414)

摘要：	基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。
关键词：	数据挖掘文本挖掘文本分类 Boosting机器学习方法相似度
文章编号：	1000-0054(2003)01-0108-04
修稿时间：	2001-12-21
Computing similarity threshold for text classification

Abstract:

Keywords:	data mining text mining text categorization boosting learning similarity
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏