首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本分类中的类别信息特征选择方法
引用本文:余俊英,王明文,盛 俊.文本分类中的类别信息特征选择方法[J].山东大学学报(理学版),2006,41(3):144-148.
作者姓名:余俊英  王明文  盛 俊
作者单位:东南大学计算机科学与工程系,江苏南京210096
摘    要:随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,该方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.

关 键 词:特征选择  文本分类  类间分布  类内分布
文章编号:1671-9352(2006)03-0144-03
收稿时间:2006-05-10
修稿时间:2006年5月10日

Class information feature selection method for text classification
XU Xuan,DING Wei.Class information feature selection method for text classification[J].Journal of Shandong University,2006,41(3):144-148.
Authors:XU Xuan  DING Wei
Institution:Department of Computer Science, Southeast University, Nanjing 210096, Jiangsu, China
Abstract:Lack of standard Chinese mail dataset,the performance of various Spam-filter systems can't be evaluated.The further research on the issue concerning the standard sample generation is made,through analyzing the problems on the collection of email samples.Meanwhile,the design of a standard sample generation system applied in real environment is given.A standard email dataset for evaluating the email filter system is provided,and will be finally developed to be a base corpus of email filtering technique.
Keywords:standard sample generation system  spare  email filtering  fuzzy comprehensive judgment
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《山东大学学报(理学版)》浏览原始摘要信息
点击此处可从《山东大学学报(理学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号