基于信息损失量的特征选择方法研究及应用 |
| |
作者姓名: | 李钊 孙占全 李晓 李诚 |
| |
作者单位: | 1. 北京交通大学软件学院, 北京 100044; 2. 山东省计算中心(国家超级计算济南中心),山东 济南 250014;3. 山东省电子政务大数据工程技术研究中心, 山东 济南 250014; 4. 山东省计算机网络重点实验室, 山东 济南 250014)
|
| |
基金项目: | 国家自然基金资助项目(61472230) |
| |
摘 要: | 通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。
|
关 键 词: | 信息损失 互信息 信息瓶颈理论 扩展熵 特征选择 |
收稿时间: | 2016-05-26 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《山东大学学报(理学版)》浏览原始摘要信息 |
|
点击此处可从《山东大学学报(理学版)》下载全文 |
|