基于k近邻的混合数据分类方法 |
| |
引用本文: | 许行,马帅,温萧轲,李雨轩.基于k近邻的混合数据分类方法[J].山西大学学报(自然科学版),2023(4):811-820. |
| |
作者姓名: | 许行 马帅 温萧轲 李雨轩 |
| |
作者单位: | 山西大学计算机与信息技术学院 |
| |
基金项目: | 国家自然科学基金(62206161);;山西省高等学校科技创新项目(2020L0026); |
| |
摘 要: | 由于有序与无序特征之间的复杂关系,现有分类方法不能有效处理混合数据(同时包括有序和无序特征)上的分类问题。针对此问题,提出了基于k近邻的混合数据分类方法(a classification method for mixed data based on k-nearest neighbor,MDKNN)。首先通过区分有序和无序特征计算样本之间的距离,获取特征的序信息和统计信息;然后分别从优于和劣于预测样本的训练集中选出最近邻样本,并基于模糊关系计算其类隶属度,以确定预测样本的类标签范围,从而保证预测结果的单调性;最后在该范围内计算分类结果。在来自UCI和WEKA的12个公开数据集上进行实验,分别与基于k近邻模型的MKNN、FKNN、MFKNN算法和基于非k近邻模型的PMDT、OLM、OSDL算法比较,所提方法都获得了最高的平均准确率,且分别比两类模型中的最优算法MFKNN和PMDT提高了7.13%和9.84%,表明了所提方法的有效性。
|
关 键 词: | 混合数据 有序特征 无序特征 k近邻 |
|
|