首页 | 本学科首页   官方微博 | 高级检索  
     

基于对数似然比的中文文本分类特征选择研究
引用本文:梁伍七,李斌,许磊,江克勤. 基于对数似然比的中文文本分类特征选择研究[J]. 安庆师范学院学报(自然科学版), 2018, 24(1): 45-50. DOI: 10.13757/j.cnki.cn34-1328/n.2018.01.012
作者姓名:梁伍七  李斌  许磊  江克勤
作者单位:安徽广播电视大学信息与工程学院,安徽合肥,230022;安庆师范大学计算机与信息学院,安徽安庆,246133
基金项目:安徽省高校自然科学研究项目(KJ2016A111)
摘    要:在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。

关 键 词:模式识别  对数似然比  特征选择  文本分类  向量空间模型  KNN分类

Study on Feature Selection Algorithm in Chinese Text Categorization Based on Log Likelihood Ratio
LIANG Wuqi,LI Bin,XU Lei,JIANG Keqin. Study on Feature Selection Algorithm in Chinese Text Categorization Based on Log Likelihood Ratio[J]. Journal of Anqing Teachers College(Natural Science Edition), 2018, 24(1): 45-50. DOI: 10.13757/j.cnki.cn34-1328/n.2018.01.012
Authors:LIANG Wuqi  LI Bin  XU Lei  JIANG Keqin
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号