首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

2.
针对传统地下采场开挖稳定评估方法存在的局限性,引入机器学习方法,提出基于随机森林算法(Random forest,RF)和K-最近邻算法(K-nearest neighbor,KNN)的地下采场开挖稳定性预测模型.以加拿大8个采场为例,首先,获取并分析399组观测数据,其中涵盖了相应的岩石质量分级(Rock Mass Rating,RMR)值、跨度以及对应的稳定、潜在不稳定或不稳定状态.然后将地下采场的稳定性程度进行三分类及二分类,采用10折交叉验证方法进行模型超参数优化,在不作任何假设的前提下,捕捉地下采场开挖稳定性与RMR值、跨度之间的复杂关系.研究表明:二分类结果准确性高于三分类预测结果;在二分类方式下,两种算法的准确率及召回率均高于90%,其中KNN算法的表现优于RF算法;提出的两种方法较先前研究的正确率有很大提升,为开挖稳定性评估提供了可靠途径.  相似文献   

3.
针对热镀锌钢卷力学性能预报建模条件属性选取难、预报精度不足的问题,研究了热镀锌钢卷力学性能梯度提升树(gradient boosting decision tree,GBDT)预报模型。利用互信息差算法综合评估工艺参数、化学成分和钢卷尺寸参数等条件属性的相对重要性以及属性之间冗余性,进行模型条件属性筛选;采用同分布原理进行样本划分,结合网格搜索法和交叉验证法优化模型参数,建立力学性能GBDT预报模型。将GBDT模型预报结果与随机森林(random forest,RF)、AdaBoost算法和BP神经网络的预报结果进行比较,比较表明GBDT模型优于其他模型,90%的数据样本预测的绝对误差小于14.24 MPa,94.6%的数据样本相对误差在6%范围内,具有更高的预测精度。  相似文献   

4.
入侵检测(ID)是保障网络安全的必要手段之一,将数据挖掘引入入侵检测中使其可以适应海量审计数据的处理,同时可以提高检测的均衡性和响应时间。文章提出了一种基于随机森林(random forest,RF)的入侵检测模型(1R-RF),针对RF模型面对高维网络审计数据选择属性时过度随机导致的元分类器效率不高的问题,开展了基于One-R快速属性评价的研究。实验证明,将基于One-R的RF用于入侵检测后有较好的时空性能、较低的误报率和漏报率,对于各种攻击行为有着较为均衡的检测率。  相似文献   

5.
针对高层建筑项目在工期风险预测时样本数据少且特征维度高的特点,建立了利用随机森林(ran-dom forest,RF)算法和粒子群(particle swarm optimization,PSO)算法优化最小二乘支持向量机(least squares support vector machine,LSSVM)的高层建筑项目工期风险预测模型.采用在特征选择方面具有显著优势的RF算法筛选出最佳特征子集;利用PSO算法对LSSVM的正则化参数和核函数参数进行优化;采用精确率、召回率以及F1m值对所建立模型的预测性能进行验证与评估.研究结果表明:用所建立的模型对高层建筑项目进行工期风险预测,平均精确率达到了93.71%,平均召回率达到了94.04%.该模型能够准确预测高层建筑项目工期的风险等级,进一步完善了高层建筑项目工期风险的预测方法,其预测结果可为高层建筑项目控制工期风险提供一定的参考.  相似文献   

6.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

7.
提出了一种基于组合相关度的随机森林(random forest,RF) DDoS攻击检测方法.根据攻击流的非对称性和半交互性定义网络流组合相关度(combination correlation degree,CCD),该相关度以地址相关统计(address correla-tion statistics,ACS)特征以及单向流半交互度(unidirectional flow semi interaction,UFSI)二元组来描述网络流的特点.然后提出基于CCD特征序列的遗传算法对RF中决策树的最大数量和最大深度两个关键参数进行优化,对参数优化的RF模型进行训练以生成分类模型来检测攻击.实验结果表明,与同类方法相比,该方法具有较高的准确率、较低的误报率和漏报率及较好的鲁棒性,适用于大数据下检测DDoS攻击.  相似文献   

8.
提出一种基于卡尔曼滤波和扩展卡尔曼滤波的小样本噪声数据处理方法. 首先, 通过物理模型或经验公式建立系统模型. 然后, 利用系统模型预测模型数据. 最后, 采用观测数据修正模型数据, 达到平滑数据噪声的效果. 实验结果表明, 对于BC500耐候钢腐蚀增重数据, 用差分整合移动平均自回归(autoregressive integrated moving average, ARIMA)模型和随机森林(random forest, RF)模型进行腐蚀增重预测时, 经卡尔曼滤波降噪后, 决定系数$R^2$平均提升6.4%, 而经扩展卡尔曼滤波降噪后, $R^2$平均提升4.9%, 验证了本方法的有效性.  相似文献   

9.
海上风电场的海况数据极其复杂导致用于海浪高度预测的输入参数极其不稳定,筛选出关键信息,提高输入参数的质量可以极大地提高海浪高度预测的准确性。以乐亭菩提岛风电场近一年的海上数据为基础,构建了一种基于随机森林(random forest, RF)、鲸鱼优化算法(whale optimization algorithm, WOA)、变分模态分解(variational mode decomposition, VMD)和双向门控循环单元(bidirectional gated recurrent unit, BiGRU)的海浪预测模型。该模型利用随机森林对环境特征等输入变量进行筛选,有效减少数据冗余,然后基于WOA-VMD模型自适应确定最优参数和自适应分解原始序列,提高数据质量并消除数据噪声的干扰。此外,针对海浪预测提出了一种基于注意力机制优化的BiGRU算法,随机森林的注意力机制将为BiGRU的隐藏层状态分配不同的权重,加强关键信息的影响。实验结果表明该模型和其他模型对比,输入质量更高,预测精度更高,拟合程度更准确,对风电场海浪预测有着重大意义。  相似文献   

10.
针对随机森林算法不能处理异常检测问题的局限,提出了一种基于改进格雷厄姆扫描法的单类随机森林,实现了随机森林在只有单类样本时的分类应用。在格雷厄姆扫描法的算法原理以及操作流程的基础上,引入了边界软化率的概念,增大了数据点外边界的柔性。利用射线法生成与输入样本反分布的数据集,使得传统的随机森林模型经过训练后成为拥有精细决策边界的单类随机森林。训练好的模型输出待测数据的异常概率。在XJTU-SY轴承数据集上验证了所提方法对于滚动轴承状态监测的有效性。分析结果表明,单类随机森林能准确分离正常运行数据与退化数据,并且可以通过调整边界软化率来实现异常值检测准确率与召回率的平衡。当预测概率阈值取0.5时,硬边界的单类随机森林可以实现98.37%的检测准确率以及0.972的召回率,而0.05的边界软化率可以得到最小的退化后期预测均方根误差,较硬边界降低1.01%。随着阈值的增大,边界软化率提供了有力的召回率保障。  相似文献   

11.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

12.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

13.
针对网络个人信用有效评分缺失的问题,分析了互联网信贷个人信用评估数据的特点,选用支持向量机、随机森林和XGBoost分别建立了信用预测模型,并对3种单一模型进行了投票加权融合. 基于互联网信贷数据的特点,在特征工程中对样本集特征进行了离散化、归一化和特征组合等处理. 为增加对比,对实验数据集进行了FICO评估核心Logistic回归分析. 实验结果表明:3种单一算法性能均优于Logistic回归,XGBoost表现优于支持向量机和随机森林模型,预测相对准确;投票融合模型的表现比单一模型更好,模型分辨能力更优秀,预测精度更高,更适用于互联网信贷个人信用评估.  相似文献   

14.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

15.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

16.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失, 并导致精度下降的问题, 提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型. 该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制, 利用随机森林算法对隐藏层状态的优化实现改进, 从而解决了降维过程中神经网络丢失数据特征的问题. 在借贷客户信息数据集上的实验结果表明, 该模型在保证主要特征的同时大幅度提升了预测准确率, 证实该模型在特征工程中具有较高的实用性.  相似文献   

17.
卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法(旋转、调音、变调、加噪),并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练Inception_Resnet_V2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。  相似文献   

18.
采用决策树(DT)模型及其衍生的随机森林(RF)模型、极端随机树(ET)模型和梯度提升树(GBDT)模型,对用于甲烷吸附的金属有机框架材料(MOFs)进行了高通量的计算筛选。利用1 800种材料的特征向量数据,计算了特征向量之间的相关性并进行重要度分析,发现材料的结构特征与化学信息特征的相关性不大,但是结构特征的重要度较高。将数据库中的1 260种材料作为训练集并使用上述4种机器学习模型进行训练,再将剩余的540种材料作为测试集对模型的筛选结果进行比较和评估。接收者操作特征(ROC)曲线和查准率-查全率(PR)曲线结果表明,GBDT模型自身稳定性强且预测结果精度高,因而成为筛选吸附甲烷的高性能金属有机框架材料的最佳模型。针对RF模型和GBDT模型进行参数优化,发现协调单个决策树的个数和决策树节点的分裂特征数量能够有效改善RF模型的性能,而调节回归树的学习速率和迭代次数可有效改善GBDT模型性能。最后基于540种材料的测试集,利用GBDT模型筛选出前20种高性能吸附材料,分析了它们的主要特征向量与甲烷吸附量之间的关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号