首页 | 本学科首页   官方微博 | 高级检索  
     检索      

改进的简单贝叶斯文本分类
引用本文:刘华.改进的简单贝叶斯文本分类[J].暨南大学学报,2007,28(1):48-51.
作者姓名:刘华
作者单位:暨南大学华文学院海外华语研究中心,广东,广州,510610
基金项目:教育部"国家语言资源监测"项目
摘    要:对简单贝叶斯分类中的条件概率加权因子进行了改进,引进了体现词语分类贡献大小的类别区别度,新的加权方法为频率与类别区别度的乘积,既强调了区别度高的词语,降低了常见词的影响,又体现了区别度高的词语频次的积极作用.实验证明,在约3万篇测试集上(共15个大类,244个小类),该改进比原来的加权方法提高了分类效果:大类和小类微平均分别提高了约18.9%和7.6%.

关 键 词:文本分类  简单贝叶斯  词语类别区别度  改进  简单贝叶斯  文本分类  system  text  categorization  Bayesian  平均分  分类效果  小类  测试集  验证  作用  影响  词语分类  乘积  频率  加权方法  区别度  类别  大小
文章编号:1000-9965(2007)01-0048-04
修稿时间:03 14 2006 12:00AM

An improved Bayesian text categorization system
LIU Hua.An improved Bayesian text categorization system[J].Journal of Jinan University(Natural Science & Medicine Edition),2007,28(1):48-51.
Authors:LIU Hua
Institution:Center for Overseas Huayu Research, College of Chinese Language and Culture, Jinan University, Guangzhou 510610, China
Abstract:The weighted factor of conditional probability in Nave-Bayes was ameliorated,the new factor is product of word's kinds-difference and frequency,which emphasizes words with high word's kinds-difference,incarnates frequency's positivity,on the contrary,reduces the affect of common words.In corpus with 3 ten thousand documents,15 kinds and 244 sub-kinds, the experiment verified this means: MicroF1 increase of 18.9 percent of parent-category,MicroF1 increase of 7.6 percent of sub-category.
Keywords:text categorization  Nave-Bayes  word's kinds-difference
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号