首页 | 本学科首页   官方微博 | 高级检索  
     

训练集类别分布对文本分类的影响
引用本文:张启蕊,张凌,董守斌,谭景华. 训练集类别分布对文本分类的影响[J]. 清华大学学报(自然科学版), 2005, 45(9): 1802-1805
作者姓名:张启蕊  张凌  董守斌  谭景华
作者单位:华南理工大学,广东省计算机网络重点实验室,广州,510640;中国电信集团广州研发中心,广州,510630
基金项目:高等学校优秀青年教师教学科研奖励计划资助项目
摘    要:为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%.实验结果显示,类别均衡法显著提高了分类性能.

关 键 词:文本分类  训练集  类别均衡法
文章编号:1000-0054(2005)S1-1802-04
修稿时间:2005-05-20

Effects of category distribution in a training set on text categorization
ZHANG Qirui,ZHANG Ling,DONG Shoubin,TAN Jinghua. Effects of category distribution in a training set on text categorization[J]. Journal of Tsinghua University(Science and Technology), 2005, 45(9): 1802-1805
Authors:ZHANG Qirui  ZHANG Ling  DONG Shoubin  TAN Jinghua
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号