首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

2.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

3.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

4.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

5.
针对入侵检测中异常点误报率较高的问题,提出了改进KNN与异常点检测算法相结合来处理数据的方法,以降低入侵检测误报率.该方法首先采用卡方特征选择方法进行数据特征选择,其次采用孤立森林、距离、局部异常因子(IDL)结合查找出异常点,然后使用SMOTE平衡数据,使得所有的样本达到一个类平衡状态,再采用KNN分类.最后采用公开...  相似文献   

6.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

7.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

8.
传统的KNN缺失值填充算法存在没有利用样本间属性的相关性,也没有考虑到保持样本数据本身的结构和去除噪声样本的问题。本文提出利用训练样本重构测试样本从而进行最近邻缺失值填充的方法,该方法重构过程充分利用样本间的相关性,也用到LPP(保局投影)保持数据结构在重构过程中不变,同时引入l2,1范式用于去除噪声样本。在UCI数据集上的仿真实验结果表明,该方法比传统的KNN填充算法以及基于属性信息熵的Entropy-KNN算法有更高的预测准确度。  相似文献   

9.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

10.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

11.
彩色图像的边缘检测算法有很多,但检测结果仍存在细节丢失、抗噪性差的问题。本文提出一种新的彩色图像的边缘检测算法。首先,在RGB空间下,采用矢量梯度算法,分别在三个通道中求出像素的梯度值。然后,采用自适应双阈值算法,对梯度值进行判断,筛选出图像的边缘点。最后,只采用筛选后的边缘点的信息,构造新的模糊矩阵的隶属函数,从而形成新的模糊算法。利用该算法,检测出最终的图像边缘信息。实验证明,该算法得到的图像检测结果,不仅对比度高、边缘连续、细节保存完整,而且具有较强的抗噪性。  相似文献   

12.
江厚元 《贵州科学》1992,10(4):25-31
本文利用二分搜索法和时间表理论中LPT算法求解装箱问题的近似最优解;给出了一个直观性算法,并研究这个算法的最坏情形,最后说明此算法在某些方面优于著名的FFD算法。  相似文献   

13.
自适应滤波算法综述   总被引:34,自引:0,他引:34  
基于二阶统计量即相关函数的自适应滤波算法在自适应信号处理中有着 广泛的应用,本文就国内外对这些算法的研究进行了综述。  相似文献   

14.
EM算法理论及其应用   总被引:3,自引:0,他引:3  
EM算法是一种迭代算法,主要用来计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓的不完全数据的统计推断问题。在介绍EM算法的基础上,针对EM算法收敛速度慢的缺陷,具体讨论了加速EM算法:EMB算法和MEMB算法;针对EM算法计算的局限性,给出了EM算法的推广:GEM和MCEM算法。最后给出了EM的实值实例,结果精确。  相似文献   

15.
为提升数据检索读的性能, 基于老化算法采取Cache方法, 通过设计合理的缓存结构, 给出一种新的分布式文件缓存算法. 该算法在缓存实现部分, 使用了LRU算法中常用的老化算法, 并将其由一个页面置换算法改进为一个文件缓存替换算法, 且在该过程中完好地继承了老化算法的优点. 评测结果显示了改进方法的有效性.  相似文献   

16.
基于Bresenham算法的四步画直线算法   总被引:12,自引:0,他引:12  
通过分析计算机图形学中的画直线的Bresenham算法,以及由此改进的“对称算法”、“二步法”,提出将“对称算法”和“二步法”结合形成“4—点画线算法”,与Bresenham算法相比,该算法可以将画线效率提高近2倍。  相似文献   

17.
尚俊平  刘合兵 《河南科学》2012,30(4):473-476
在分析BF、KMP和KR等模式匹配算法的基础上提出一种改进的KR算法(IKR),在产生哈希冲突时利用双向比较法进行匹配.实验结果表明,该算法可以快速有效地进行模式匹配.  相似文献   

18.
分析几种模式匹配算法如KMP、BM、RK、SO。通过上机实验对这些算法的匹配时间进行测试,结果表明在这些模式匹配算法中BM算法是速度最快效率最高的算法。  相似文献   

19.
排课系统比较复杂又具有智能特点,其算法主要有模拟手工算法、回溯算法、遗传算法、贪心算法等.在软件开发过程中,发挥每种算法优点以提高排课的科学性、高效性和合理性是个重要课题.结合成功研制排课系统的经验,阐述了不同算法的应用,提出了通过所有算法的混合应用解决排课问题的方法.  相似文献   

20.
大数快速模幂算法的研究   总被引:1,自引:0,他引:1  
大数模幂在现代密码学领域有着广泛的应用,它是RSA.ELGamal等公钥密码的基本运算。对目前具有典型代表的各种大数模幂算法进行分析,从基本设计原理和实现角度对这些模幂算法进行分类,归纳并给出了各类算法的实现方法、优缺点和研究现状。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号