首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 359 毫秒
1.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

2.
网络数据的正确分类对于网络环境的监控和维护具有重要作用。在数据不平衡状态下解决数据分类和处理复杂的特征关系尤为重要,为此提出一种改进SMOTE(synthetic minority over-sampling technique)+GA-XGBoost(genetic algorithm-extreme gradient boosting)的机器学习分类方法。将局部离群因子引入SMOTE插值过程,对少数类样本过采样,并对多数类样本随机欠采样,从而实现样本再平衡;同时,在模型训练过程中为增加模型拟合度,将具有进化迭代优势的遗传算法与XGBoost相结合,解决XGBoost参数众多、特征学习收敛较慢等问题。实验采用UNSW_NB15数据集,选择多层感知机、K近邻、决策树等机器学习算法及SMOTE+XGBoost等不平衡数据训练方法进行试验对比,结果表明该方法具有较好的分类预测准确率(97.40%)及较高的平均召回率(70.2%)和平均F1-score(68.8%)。并在本实验室工业信息安全平台采集的数据进行实验研究,分类准确率为99%,进一步验证了该方法的有效性和可行...  相似文献   

3.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

4.
张昱  张明魁 《科学技术与工程》2023,23(27):11835-11840
岩爆是深埋隧道施工过程中开挖时形成临空面,引起能量突然释放的现象,轻则岩片剥落,重则造成人员伤亡和财产损失,其危害程度取决于岩爆烈度等级,因此岩爆烈度等级预测是急需解决的难题之一。本文针对单一指标预测法预测效果不理想的问题,首先设计并实现了综合指标法和针对多分类问题的分类器,其次提出并建立了基于梯度下降(Gradient Descent)算法优化深度神经网络(Deep Neural Network)的GD-DNN岩爆烈度等级预测模型。实验结果表明:GD-DNN模型预测的准确率达到95.8%,相比机器学习算法K最近邻(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)和深度学习算法DNN分别提高了45.8%、38.7%和8.3%,同时在精确率、召回率和??1值三项指标上均优于其他模型。最后在秦岭隧道、大相岭隧道、通渝隧道和马路坪矿井4个实际工程中检验模型的预测效果,检验结果证明GD-DNN模型能够精准预测岩爆烈度等级,研究成果可应用于深埋隧道工程中。  相似文献   

5.
随着信息技术的不断发展和教育数据的大量累积,教育机构对于教育数据的挖掘和改善挖掘效果的需求越来越大.在本文中我们探索用离散化方法和少数类样本合成(SMOTE)过采样化技术配合神经网络(neural network)算法和支持向量机(SVM)算法如何提高预测学生最终课程表现模型的准确率并对比几种离散化方法的表现.从实验结果中我们得出使用离散化和SMOTE技术进行预处理后能够显著地提升模型的预测能力,其中使用等频率分箱法进行离散化处理数据集的模型表现最佳.  相似文献   

6.
针对传统故障诊断模型面向海量故障数据时诊断准确度低的问题,首先,提出了一种局部均值分解与固定点算法联合降噪方法,以消除轴承振动信号中的噪声;其次,为了避免原始信号中敏感特征难以提取的问题,提出了一种基于核主成分分析的降维方法;再次,构建了一种基于改进极端梯度提升决策树的故障诊断模型,采用GS-PSO算法优化SVM性能,进而运用改进极端梯度提升决策树思想修正分类模型的残差以提升模型分类精度,应用Spark-大数据平台,通过并行处理技术进行科学计算;最后,采用CWRU提供的滚动轴承数据进行训练与仿真,证明构建的模型能实现对不同类型滚动轴承的识别诊断,并保证诊断结果的准确率。通过对4种不同故障诊断模型的对比分析,表明本文模型具有可行性和优越性。  相似文献   

7.
门户网站、博客和论坛中的新闻性文章很多具有情感关键句,而情感关键句识别是对新闻进行舆情分析和观点挖掘的基础,其识别的准确率对后续的研究工作非常重要。将三支决策技术分别与传统的三种机器学习算法NB、SVM和KNN相结合,提出了基于三支决策的新闻情感关键句识别方法,并与传统的机器学习算法进行对比实验。实验表明,本文提出的方法能有效提高新闻情感关键句识别的准确率,比传统的机器学习方法 NB、SVM、KNN分别提高准确率20%、27%、18%。  相似文献   

8.
万宇  齐金平  张儒  闫森 《科学技术与工程》2021,21(28):12080-12087
基于机器学习的煤与瓦斯分类预测方法中,各突出案例的数量不平衡会导致预测准确率降低。为了提升煤与瓦斯突出预测模型的准确率及稳定性,构建了过采样算法和支持向量机(support vector machine, SVM)组合的分类预测模型。首先,通过聚类分析将突出样本分成多个簇,在每个簇中对可能的噪声点按概率去除;然后通过过采样算法合成新样本,以减少样本数量不均衡对模型训练的影响;最后,用支持向量机模型结合粒子群算法对新数据集进行训练调优。实验结果表明:提出的模型在G-mean、曲线下面积(area under curve, AUC)值上均高于传统的分类模型,具有更强的算法鲁棒性,并且随着突出样本数量的减少,其优势更加明显。  相似文献   

9.
采用模式识别中的K最近邻法(KNN方法)对不满足于统计模型的数据阵中的缺省值进行预测,预测以样本值作为预测参照.由于原始数据阵没有训练集,故采用对原始数据进行最大似然主成分分析(MPCA),获得的结论与KNN方法处理后的数据的主成分分析结论相比较,结果表明,两套数据分析得出的主因子数、因子负载阵基本一致,而因子得分阵有细微的差别,预测较缺省值处理可获得更详尽的信息.  相似文献   

10.
为探索不同机器学习方法在臭氧浓度预测中的应用效果,基于重庆市中心城区及其周边区域2017-2019年臭氧数据及气象数据,利用KNN数据挖掘算法与BP神经网络算法,建立了2种以重庆中心城区北碚区为中心的臭氧浓度预报模型,并运用反距离加权插值法将臭氧浓度预报值网格化.研究显示:(1)2017-2019年间,臭氧浓度除铜梁区和沙坪坝区呈逐年上升趋势外,其他区域呈“单峰形”的变化,最大值出现在2018年;夏季臭氧浓度最高,冬季最低;臭氧浓度与气象要素关系最密切的是最高气温、平均气温及相对湿度.(2)2种预测模型在7个区的训练中平均预报准确度超过了74%,其中KNN模型的准确率高于BP神经网络模型,2种模型与实测值的相关性超过了0.7,拟合度较高;在验证模型准确率中,BP神经网络模型在检验过程中的整体效果高于训练效果;总的来说,基于BP神经网络模型的预测结果总体优于KNN模型的.(3)将模型应用于臭氧浓度网格预报中,从数值来看,高值与实测值基本一致,低值低于实测值;从地理位置来看,低值与实测值位置基本一致,分布在重庆中心城区中部偏西地区,高值预测区域差距较大,实测高值区分布在中心城区的南部和东部...  相似文献   

11.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性.  相似文献   

12.
支持向量机算法用于癌症数据建模   总被引:1,自引:0,他引:1  
吴疆  董婷 《科学技术与工程》2007,7(20):5363-5365
支持向量机算法(Support Vector Machine)是基于统计学习理论(SLT)发展起来的新一代机器学习方法,并被成功地应用到很多模式识别问题中。文中支持向量机分类算法用于卵巢癌病变与非卵巢癌病变质谱数据建模。对卵巢癌数据进行判别预测,预报正确率达到98%。通过与KNN、神经网络等算法的预报结果相比较,其预报能力强于KNN、神经网络算法在这个问题中的应用,为支持向量机算法可以应用于癌症疾病辅助检测提供一例证。  相似文献   

13.
为了探索基于样本数据的煤矿瓦斯爆炸风险预测,依据本质安全理念构建了预测瓦斯爆炸风险的指标集,结合机器学习与特征优化算法提出了信息增益(information gain,IG)与支持向量机(support vector machine,SVM)的组合模型,通过对优化后的14种特征信息的分类学习,完成对风险未知样本的预测任务.以全国100家煤矿企业为研究对象,使用不同模型分别预测瓦斯爆炸风险并全面分析和比较,实验结果表明,经过IG优化后的SVM模型预测正确率达到了95.45%,相对于单一SVM模型提高了9.09%,同时高于其他预测模型,证明了该组合模型在瓦斯爆炸风险预测领域的优越性.  相似文献   

14.
网络舆情中的谣言对社会危害极大,因此有效地检测网络舆情中的谣言已是当务之急.目前,一些单一机器学习算法被相继应用到谣言检测中.针对这些单一机器学习算法在分类上的局限性,将一种融合逻辑回归与决策树的逻辑模型树方法用于谣言检测上.根据舆情分析报告上采集的数据集,实验结果表明:组合模型逻辑模型树的分类预测准确率比已应用到谣言检测的单一机器学习算法明显要高,逻辑模型树是一种有效的谣言检测方法.  相似文献   

15.
在冷轧弯曲矫直过程中,针对拉矫机工艺参数设置问题,利用经验公式、有限元仿真建立的延伸率模型预测精度不高.为提高预测精度,基于传统解析模型与机器学习算法进行研究,比较了两种方法预测模型的精度,得到机器学习算法的延伸率预测模型要比数值解析模型的拟合优度高.比较BP神经网络算法和支持向量机(SVM)算法,得到两种机器学习算法的预测模型精度基本一致.为进一步提高预测精度,采用Adam算法对BP神经网络进行优化,采用遗传算法对SVM预测模型的参数进行优化,最终得到最优预测模型的均值绝对百分比误差MAPE以及拟合优度R2分别为13.4%和0.953,可以为实际生产提供技术指导.  相似文献   

16.
水力压裂作为页岩气储层开采的核心技术,在压裂过程中水力裂缝的扩展会遇到天然裂缝,与天然裂缝相交后压裂缝的扩展特征对缝网的形成有明显影响,从而影响最终压裂改造效果。基于内聚力单元建立了基于断裂力学的页岩气储层渗流-应力-断裂耦合的水力裂缝与多个天然裂缝相交扩展模型,研究了不同天然裂缝倾角、天然裂缝尺寸、应力差、压裂液排量和黏度下水力裂缝与天然裂缝扩展形态规律。采用基于Bagging算法集成支持向量机(support vector machines, SVM)、决策树(decision tree classifier, DTC)、逻辑回归(logistic regression, LR)、K最邻近算法(K-nearest neighbor, KNN)的裂缝形态分类器对裂缝相交扩展形态进行预测,并将Bagging算法预测结果与SVM、DTC、LR、KNN预测结果进行比较。研究结果表明:基于Bagging集成算法对水力裂缝与天然裂缝相交扩展形态预测准确率达到了92.58%,相较于单个算法,最高提升了17.95%,其中应力差越小、天然裂缝倾角、裂缝尺寸越大和压裂液排量、黏度越低越容易产生剪切缝,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号