首页 | 本学科首页   官方微博 | 高级检索  
     

文档分类之特征选择方法的实验比较
引用本文:张建兵,戴新宇,陈家骏. 文档分类之特征选择方法的实验比较[J]. 广西师范大学学报(自然科学版), 2008, 26(3)
作者姓名:张建兵  戴新宇  陈家骏
作者单位:南京大学软件新技术国家重点实验室,江苏南京,210093
基金项目:国家高技术研究发展计划(863计划),国家自然科学基金,国家社会科学基金
摘    要:在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一.其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用.然而,该分类方法的性能很大程度上取决于文本的特征空间表示.在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析.实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理.

关 键 词:文本分类  特征选择  信息增益  随机森林  支持向量机

An Empirical Study on Feature Selection Methods for Centroid-based Text Classification
ZHANG Jian-bing,DAI Xin-yu,CHEN Jia-jun. An Empirical Study on Feature Selection Methods for Centroid-based Text Classification[J]. Journal of Guangxi Normal University(Natural Science Edition), 2008, 26(3)
Authors:ZHANG Jian-bing  DAI Xin-yu  CHEN Jia-jun
Abstract:
Keywords:Relief
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号