首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词频和文本类别的互信息改进算法
引用本文:谢力,李光耀,谭云兰.基于词频和文本类别的互信息改进算法[J].井冈山大学学报(自然科学版),2013(3):41-44.
作者姓名:谢力  李光耀  谭云兰
作者单位:同济大学电子与信息工程学院;井冈山大学电子与信息工程学院
基金项目:上海市科委国际合作基金项目(10510712500)
摘    要:分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。

关 键 词:互信息  特征选择  词频  文本类别  MⅢc

AN IMPROVED MUTUAL INFORMATION ALGORITHM BASED ON WORD FREQUENCY AND TEXT CATEGORY
XIE Li,LI Guang-yao,TAN Yun-lan.AN IMPROVED MUTUAL INFORMATION ALGORITHM BASED ON WORD FREQUENCY AND TEXT CATEGORY[J].Journal of Jinggangshan University(Natural Sciences Edition),2013(3):41-44.
Authors:XIE Li  LI Guang-yao  TAN Yun-lan
Institution:1.School of Electronics and Information,Tongji University,Shanghai 201804,China) (2.School of Electronics and Information Engineering,Jinggangshan University,Ji’an,Jiangxi 343009,China)
Abstract:This paper analyzes the shortages of Mutual Information (MI) algorithm. Aiming at the problem that low frequency features may have higher weights, we take advantage of two indexes of strong informational features- word frequency and concentration ratio and propose an improved MI algorithm based on word frequency and text category (MIFC). The result of the experiment shows that MIFC algorithm has greater accuracy than traditional MI algorithm.
Keywords:mutual information  feature selection  word frequency  text category  MIFC
本文献已被 CNKI 维普 等数据库收录!
点击此处可从《井冈山大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《井冈山大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号