共查询到20条相似文献,搜索用时 812 毫秒
1.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。 相似文献
2.
《安徽大学学报(自然科学版)》2020,(1)
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升. 相似文献
3.
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用. 相似文献
4.
一种基于投票的不平衡数据分类集成算法 总被引:1,自引:1,他引:0
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。 相似文献
5.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度. 相似文献
6.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能. 相似文献
7.
《山东大学学报(理学版)》2019,(3)
许多真实世界的数据集都存在一个称为类不平衡问题的问题。传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于固定半径最近邻的逐步竞争算法(FRNNPC),通过固定半径邻(FRNN)对数据集进行预处理,在全局范围内消除不必要的数据,在得到的候选数据中使用逐步竞争算法(NPC),即逐渐计算查询样本邻近样本的分值,直到一个类的分值总和高于另一个类。简而言之,该方法能够有效地处理不平衡问题,而且不需要任何手动设置的参数。实验结果将所提出的方法与4种代表性算法在10个不平衡数据集上进行了比较,并验证了该算法的有效性。 相似文献
8.
9.
10.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性. 相似文献
11.
12.
本文利用二分搜索法和时间表理论中LPT算法求解装箱问题的近似最优解;给出了一个直观性算法,并研究这个算法的最坏情形,最后说明此算法在某些方面优于著名的FFD算法。 相似文献
14.
EM算法理论及其应用 总被引:3,自引:0,他引:3
杨基栋 《安庆师范学院学报(自然科学版)》2009,15(4):30-35
EM算法是一种迭代算法,主要用来计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓的不完全数据的统计推断问题。在介绍EM算法的基础上,针对EM算法收敛速度慢的缺陷,具体讨论了加速EM算法:EMB算法和MEMB算法;针对EM算法计算的局限性,给出了EM算法的推广:GEM和MCEM算法。最后给出了EM的实值实例,结果精确。 相似文献
15.
为提升数据检索读的性能, 基于老化算法采取Cache方法, 通过设计合理的缓存结构, 给出一种新的分布式文件缓存算法. 该算法在缓存实现部分, 使用了LRU算法中常用的老化算法, 并将其由一个页面置换算法改进为一个文件缓存替换算法, 且在该过程中完好地继承了老化算法的优点. 评测结果显示了改进方法的有效性. 相似文献
16.
巫喜红 《大庆师范学院学报》2007,27(2):50-52
分析几种模式匹配算法如KMP、BM、RK、SO。通过上机实验对这些算法的匹配时间进行测试,结果表明在这些模式匹配算法中BM算法是速度最快效率最高的算法。 相似文献
17.
在分析BF、KMP和KR等模式匹配算法的基础上提出一种改进的KR算法(IKR),在产生哈希冲突时利用双向比较法进行匹配.实验结果表明,该算法可以快速有效地进行模式匹配. 相似文献
18.
排课系统比较复杂又具有智能特点,其算法主要有模拟手工算法、回溯算法、遗传算法、贪心算法等.在软件开发过程中,发挥每种算法优点以提高排课的科学性、高效性和合理性是个重要课题.结合成功研制排课系统的经验,阐述了不同算法的应用,提出了通过所有算法的混合应用解决排课问题的方法. 相似文献
19.
基于Bresenham算法的四步画直线算法 总被引:12,自引:0,他引:12
通过分析计算机图形学中的画直线的Bresenham算法,以及由此改进的“对称算法”、“二步法”,提出将“对称算法”和“二步法”结合形成“4—点画线算法”,与Bresenham算法相比,该算法可以将画线效率提高近2倍。 相似文献
20.
根据智能天线波束赋形算法必须考虑设备的复杂性和收敛速度的要求,提出一种结合RLS和RVSSLMS算法各自优点的RLS-RVSSLMS波束赋形算法,并用Matlab进行了仿真。仿真结果表明:RLS-RVSSLMS既具有RLS算法收敛速度快的特点,同时保持了LMS算法计算量小的特点。 相似文献