基于归一化文档频率的文本分类特征选择方法 |
| |
引用本文: | 赵鸿山,范贵生,虞慧群.基于归一化文档频率的文本分类特征选择方法[J].华东理工大学学报(自然科学版),2019,45(5). |
| |
作者姓名: | 赵鸿山 范贵生 虞慧群 |
| |
作者单位: | 华东理工大学计算机科学与工程系,上海,200237;华东理工大学计算机科学与工程系,上海 200237;上海市计算机软件测评重点实验室,上海 201112 |
| |
基金项目: | 国家自然科学基金;国家自然科学基金;上海市浦江人才计划;上海市自然科学基金;上海市自然科学基金;华东理工大学教育教学规律与方法研究项目 |
| |
摘 要: | 特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。
|
关 键 词: | 文本分类 特征选择 文档频率 归一化 |
本文献已被 CNKI 万方数据 等数据库收录! |
|