首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本分类中特征选择方法的比较和改进
引用本文:伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报(理学版),2007,39(2):110-113.
作者姓名:伍建军  康耀红
作者单位:海南大学信息科学技术学院,海口,570228
摘    要:考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性.

关 键 词:特征选择  互信息  文本分类
文章编号:1671-6841(2007)02-0110-04
修稿时间:12 20 2006 12:00AM

Comparison and Improvement of Feature Selection for Text Categorization
WU Jian-jun,KANG Yao-hong.Comparison and Improvement of Feature Selection for Text Categorization[J].Journal of Zhengzhou University:Natural Science Edition,2007,39(2):110-113.
Authors:WU Jian-jun  KANG Yao-hong
Abstract:Four different feature selection methods are discussed,including Document Frequency(DF),Mutual Information(MI),X2 test(CHI),Correlation Coefficient(CC),and the correction of text categorization is compared using the algorithm of K nearest neighbor.In order to decrease the MI's bias towards low frequency words,one combined feature selection is expounded,and is proved to be effective by experiment.
Keywords:feature selection  mutual information  text categorization
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号