首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于贝叶斯粗糙集的文本特征选择方法
引用本文:朱颢东,钟勇.基于贝叶斯粗糙集的文本特征选择方法[J].河南师范大学学报(自然科学版),2009,37(4).
作者姓名:朱颢东  钟勇
作者单位:中国科学院,成都计算机应用研究所,成都,610041;中国科学院,研究生院,北京,100039
基金项目:四川省科技计划项目,四川省科技厅科技攻关项目 
摘    要:特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.

关 键 词:特征空间  文本分类  文档频  贝叶斯粗糙集  属性约简

Text Feature Selection Method Based on Bayesian Rough Sets
ZHU Hao-dong,ZHONG Yong.Text Feature Selection Method Based on Bayesian Rough Sets[J].Journal of Henan Normal University(Natural Science),2009,37(4).
Authors:ZHU Hao-dong  ZHONG Yong
Abstract:Feature selection is the core research topic in text categorization.It firstly presents document frequency based on minimum word frequency,and then simply analyzes shortcomings of classical rough sets and variable precision rough sets.It also introduces bayesian rough sets and presents an algorithm of attribute reduction.Finally,combined the attribute reduction algorithm with document frequency based on minimum word frequency it proposes a comprehensive feature selection method.The comprehensive method firstly uses document frequency method based on minimum word frequency to extract original features,and then employs the attribute reduction algorithm to eliminate redundancy.Experimental results show that the algorithm is effective.
Keywords:feature space  text categorization  document frequency  bayesian rough set  attribute reduction
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号