首页 | 本学科首页   官方微博 | 高级检索  
     

朴素Bayes分类器文本特征向量的参数优化
作者姓名:方秋莲  王培锦  隋阳  郑涵颖  吕春玥  王艳彤
作者单位:中南大学数学与统计学院,长沙,410083
基金项目:湖南省统计科研项目;全国大学生创新创业项目
摘    要:采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.

关 键 词:朴素Bayes分类器  特征选择  TFIDF算法  N-gram模型
收稿时间:2019-05-07
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《吉林大学学报(理学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号