首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 437 毫秒
1.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

2.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

3.
为深入挖掘驾驶人因素与交通事故之间的关系,提出一种基于SMOTENC和极端梯度提升(extreme gradient boosting, XGBoost)的驾驶人交通状态优劣分类算法。首先针对交通事故发生与否不平衡的特点,使用SMOTENC算法对数据进行上采样并在采样过程中加入随机扰动,解决了数据不平衡问题。然后使用Embedded算法结合L1正则化,通过模型评估完成对特征子集的选择。最后使用机器学习的方法将XGBoost算法用于执行数据的特征提取和分类过程。实验表明,在对驾驶人的交通状态进行综合评价的任务上,XGBoost模型的准确率为99.85%,相较于随机森林、支持向量机等对照组模型,提升了约1.12%-1.80%。除此之外,使用SMOTENC算法对数据不平衡问题进行处理后,通过混淆矩阵观察到模型对于好坏个体均具备较好的识别能力。  相似文献   

4.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

5.
为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。  相似文献   

6.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

7.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

8.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

9.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

10.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

11.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性.  相似文献   

12.
人工智能和机器学习的发展为入侵电网数据采集与监视控制(supervisory control and data ac-quisition,SCADA)系统的虚假数据检测,提供了新的高效解决方案.目前,针对运用机器学习中的单分类器对电网中虚假数据的检测,出现的准确率低、误检率高、模型区分能力差等问题,提出了一种基于集成学...  相似文献   

13.
高血压是一种常见的慢性病,若能早发现、早采取措施可降低其引发并发症的风险。尽管高血压的产生与发展与诸多因素有关,但饮食被公认为影响高血压的主要因素之一。机器学习模型可以对疾病进行有效预测,并提供辅助治疗。笔者提出一种基于XGBoost的通过分析营养成分预测高血压的方案,该方案由数据转换、特征选择、数据清理与标准化、模型搭建、分类与评估5部分组成。实验结果表明,XGBoost在高血压预测中获得了0.859的F1分数且准确率超过85%,高于随机森林、支持向量机与人工神经网络。此外通过分析不同营养成分对高血压预测的影响因素,获得了影响高血压的前10个营养特征,大部分与医学结论相同,验证了模型的有效性。  相似文献   

14.
随着物联网、大数据技术的深入发展,一型装备交付部队的同时,往往需同步提供数字孪生模型以优化视情维护过程。论文基于某型号飞机试飞数据,提出一种将机器学习技术用于飞机起落架着陆载荷预测模型构建的方法。以某型号飞机飞行参数为输入,以传感器实测的左起落架垂向载荷为输出,经数据清洗和特征降维后,分别建立极端梯度提升(extreme gradient boosting, XGBoost)、随机森林(Random Forest)和多层前馈(back propagation, BP)神经网络模型,并对所建模型进行调优。经对比和评估,XGBoost模型具有最高的预测精度,对起落架载荷绝大多数样本的预测误差均保持在6%以内,同时建模时间少,泛化能力强,为起落架载荷预测最优模型。  相似文献   

15.
针对基于传统机器学习方法设计的DR胸片肺结核检测器存在着泛化能力不强,实际检测精度低等问题,提出了一种基于Focal Loss的深度学习检测方法Tuberculosis Neural Net(TBNN).医学图像的特殊性,存在带标注的数据量小导致无法充分训练深层网络模型等问题.该方法利用肺炎和肺结核同为呼吸道感染疾病且在DR胸片上有相似表征的特点,基于迁移学习原理训练特征提取子网络,减少肺结核胸片样本不足对模型训练造成的影响.首先在大型的肺炎胸片数据集上训练特征提取网络,以获取DR图像中丰富的深层图像语义信息,然后使用样本较少的肺结核数据集微调网络参数,并将多层卷积的输出作为TBNN分类子网络的输入,得到基于DR胸片的肺结核病灶检测模型.实验结果表明,该方法生成的检测模型在分类精度和性能上均优于基于传统机器学习的肺结核检测器.在同等训练数据量和训练周期下,模型性能高于其他采用传统数据增强方法的深层网络肺结核检测算法,且能标识病灶区域,准度上有不低于放射科阅片医生的表现.  相似文献   

16.
为了有效地监管网络舆情,辅助管理人员进行决策,微博信息传播预测方法的研究具有重要应用价值。针对传统微博信息传播预测方法存在指标单一、预测效果较差问题,提出一种基于XGBoost模型的融合多特征微博信息传播预测方法。首先,分析微博传播网络和用户节点特性,提取出博主特征、微博内容特征、传播特征3类特征并构建数据集;接着,基于XGBoost方法分别构建微博累计转发量预测模型和微博最大转发深度预测模型;最后,通过模型在测试数据集上的平均绝对误差验证模型的预测效果。通过与线性回归等传统的预测方法比较分析可以看出,提出的预测方法能够取得良好的预测效果。  相似文献   

17.
特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号