首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于两步策略的英文文本分类
引用本文:陈建林,樊兴华,王国胤.基于两步策略的英文文本分类[J].广西师范大学学报(自然科学版),2007,25(4):200-203.
作者姓名:陈建林  樊兴华  王国胤
作者单位:重庆邮电大学,计算机科学与技术研究所,重庆,400065
基金项目:重庆市自然科学基金资助项目(2005BA2003,2006BB2374),教育部新世纪优秀人才支持计划基金资助项目(教技司[2005]2号)
摘    要:提出了基于两步策略的3种多类多标签英文文本分类方法:①以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法;②以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法;③以ID 3、C 4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法②进行二次分类的混合两步方法。实验表明,3种方法中方法③具有最好的性能。

关 键 词:文本分类  两步分类策略  分类器
文章编号:1001-6600(2007)04-0200-04
收稿时间:2007-06-30
修稿时间:2007年6月30日

English Texts Categorization in Two Steps
CHEN Jian-lin,FAN Xing-hua,WANG Guo-yin.English Texts Categorization in Two Steps[J].Journal of Guangxi Normal University(Natural Science Edition),2007,25(4):200-203.
Authors:CHEN Jian-lin  FAN Xing-hua  WANG Guo-yin
Abstract:This paper proposes three multi-classification and multi-label English text categorization methods based on two steps strategy.The first method classifies texts by applying Bayes classifier which uses the stemmed and no stemmed words as features separately in the first and second step.The second method uses Bayes classifier in the first step and decision tree classifier in the second step.The third method first classifies some special categories by a combined classifier of ID3,C4.5 and Bayes classifier,the rest categories will be classified by using the second method.The experiments show that the third method has the best performance.
Keywords:text categorization  two steps categorization strategy  classifier
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号