首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
Relief算法对于数据重叠区域的样本分类较为困难,通过人为剔除分类边界的样本来缓解干扰数据对于分类性能的影响。在非平衡数据中,重叠区域包含着为数不多的少数类样本,简单地剔除干扰数据可能会造成信息的丢失。针对这一问题,文章提出了一种面向非平衡数据的大间隔近邻Relief算法,该算法首先结合K-means,提供了两种多数类样本的欠采样方案,以获得较为平衡的新采样数据集。然后利用SVM计算新数据集中最具判别性的方向,并依此设计了一种基于大间隔的近邻计算方式,从而尽可能避开干扰数据。在6个非平衡数据集上的实验表明,在现有代表性算法的基础上,文章提出的算法仅利用31%~57%数量的特征即可达到相当或更高的分类性能。  相似文献   

2.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

3.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

4.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

5.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

6.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

7.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

8.
为了提高推荐算法在对少数类用户进行推荐时的时效性、准确性,提出一种面向少数类用户兴趣演化的推荐算法。该文算法将时间窗口、指数衰减函数和带有时间效应的用户项目交互信息3个因素相结合,描述出不同用户对不同项目类型的兴趣倾向值。通过改进的K-means算法对用户进行分类,并对聚类结果中近邻数量极少的类用户(少数类用户),使用平衡的方法来增加这类用户的近邻数量,避免少数类用户兴趣趋于窄化,以防信息茧房现象的发生。最后将聚类结果与推荐算法结合对少数类用户进行推荐。在MovieLens 100K数据集上的实验对比分析表明,该文算法的推荐精度最大提高了2.07%。  相似文献   

9.
针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。  相似文献   

10.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号