面向非平衡数据的大间隔近邻Relief算法 |
| |
引用本文: | 程凤伟,常浩.面向非平衡数据的大间隔近邻Relief算法[J].山西大学学报(自然科学版),2022(4):1014-1022. |
| |
作者姓名: | 程凤伟 常浩 |
| |
作者单位: | 太原学院计算机科学与技术系 |
| |
基金项目: | 国家自然科学基金(62076154;U1805263);;山西省自然科学基金(201901D111030);;山西省教育科学“十四五”规划项目(GH21395); |
| |
摘 要: | Relief算法对于数据重叠区域的样本分类较为困难,通过人为剔除分类边界的样本来缓解干扰数据对于分类性能的影响。在非平衡数据中,重叠区域包含着为数不多的少数类样本,简单地剔除干扰数据可能会造成信息的丢失。针对这一问题,文章提出了一种面向非平衡数据的大间隔近邻Relief算法,该算法首先结合K-means,提供了两种多数类样本的欠采样方案,以获得较为平衡的新采样数据集。然后利用SVM计算新数据集中最具判别性的方向,并依此设计了一种基于大间隔的近邻计算方式,从而尽可能避开干扰数据。在6个非平衡数据集上的实验表明,在现有代表性算法的基础上,文章提出的算法仅利用31%~57%数量的特征即可达到相当或更高的分类性能。
|
关 键 词: | 非平衡数据 欠采样 特征选择 Relief 大间隔 |
|