首页 | 本学科首页   官方微博 | 高级检索  
     

计算文本相似度阈值的方法
引用本文:刁力力,王丽坤,陆玉昌,石纯一. 计算文本相似度阈值的方法[J]. 清华大学学报(自然科学版), 2003, 43(1): 108-111
作者姓名:刁力力  王丽坤  陆玉昌  石纯一
作者单位:清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084
基金项目:国家自然科学基金资助项目(79990580),国家重点基础研究发展规划项目(G1998030414)
摘    要:基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。

关 键 词:数据挖掘  文本挖掘  文本分类  Boosting机器学习方法  相似度
文章编号:1000-0054(2003)01-0108-04
修稿时间:2001-12-21

Computing similarity threshold for text classification
Abstract:
Keywords:data mining  text mining  text categorization  boosting learning  similarity
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号