首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

2.
为了减少电动汽车大规模集成到电网造成的不利影响,提出了一种能够实现充电站充电负荷精准预测的方法。该方法利用LightGBM(light gradient boosting machine)与XGBoost(eXtreme gradient boosting)模型构建线下?线上组合模型。考虑充电负荷、时间、温度、天气等历史数据,利用LightGBM模型初步建立充电负荷线下预测模型;基于XGBoost模型,以线下预测模型输出负荷和实际负荷的误差为优化目标,实时变化的交通流量为协变量,建立线上预测模型,并对初步预测结果进行误差修正。某市实际充电站预测结果表明,相比于随机森林(RF)、LightGBM模型、XGBoost模型、多层感知机(MLP)以及LightGBM?RF组合模型,该组合模型具有更高的预测精度,同时可以准确预测不同充电站的实时充电负荷。  相似文献   

3.
建立地质灾害易发性评价模型并开展易发性评价,对提高区域地质灾害预报预警效率和精度有重要意义.然而,如何建立既切合区域实际、又具有推广适用价值的地质灾害易发性评价模型是制约地质灾害预报预警的关键科学问题.以云南省南华县2015年地质灾害详查数据为基础,选择地形、地貌等11个因子,基于均值法,采取梯度提升树算法(XGBoost、LightGBM、CatBoost)、信息量模型与地理加权回归模型开展了地质灾害易发性评价研究.结果表明:(1)地理加权回归模型预测结果存在过拟合现象,信息量模型则存在欠拟合现象;(2)均值法效果最好,AUC(Area Under Curve)值为0.933 7,精度较地理加权回归模型、XGBoost、LightGBM、CatBoost、信息量模型分别提高了1.7%、1.8%、2.0%、3.8%、4.0%;(3)Catboost对正样本的预测效果最差,但是对负样本的预测效果最好,而XGBoost对正样本的预测效果最好,对负样本的预测效果很差,基于3种梯度算法的均值法则对正负样本的预测精度有了明显提高;(4)南华县地质灾害主要诱因有道路修建、断层活动、降雨冲刷、河流侵...  相似文献   

4.
针对短时交通流具有随机性和不确定性等特征,提出一种基于小波分析和集成学习的组合预测模型.首先,对原始交通流数据的平均行程时间序列应用Mallat算法进行多尺度小波分解,且对各尺度上分量进行单支重构;其次,对于各重构的单支序列分别使用极端梯度提升模型(extreme gradient boosting,XGBoost)进...  相似文献   

5.
【目的】目前关于林型识别的研究区域主要为小范围森林区域和林场,为了探究较大范围内林型的识别方法,本研究使用Sentinel-2光学遥感影像、森林资源二类调查数据、数字高程模型(DEM)和Sentinel-1雷达遥感影像数据建立林型识别模型。【方法】以淳安县作为研究区域,针对淳安县各个小班中的7种林型:毛竹(Phyllosstachys edulis)林、茶树(Camellia sinensis)林、山核桃(Carya cathayensis)林、杉木(Cunninghamia lanceolata)林、马尾松(Pinus massoniana)林、阔叶混交林、其他硬阔林进行识别。研究采用分层的方法对林型进行识别,整体分为3层。第1层使用RF算法建立林地与非林地识别模型;第2层对林地数据进行树种结构识别,分别使用随机森林(random forest, RF)、极端梯度提升(eXtreme gradient boosting, XGBoost)和 轻量级梯度提升机(light gradient boosting machine, LightGBM)方法建立不同模型并对比分析实验结果;第3层将树种结构细分为林型。【结果】第1层RF林地与非林地识别模型总体精度为98.08%;第2层树种结构识别模型中对比了3个模型不同特征组合下的性能,其中LightGBM模型总体精度最高,达到81.43%;第3层模型对林型进行识别,基于所有特征结合雷达遥感因子建模的情况下,LightGBM模型精度为84.51%,经递归特征消除法(recursive feature elimination, RFE)选择特征后,最优精度为83.21%。【结论】通过各个模型的特征重要性图发现,光学遥感中的绿光、红光、近红外波段和红边波段,以及DEM提取的地形因子对研究区域小班林型识别有较好的效果,而Sentinel-1雷达中提取的自变量对林型的识别没有特别明显的帮助。  相似文献   

6.
渗透率预测本质上属于拟合问题,因此可用拟合模型进行解决。机器学习模型是解决拟合问题的利器,其中LightGBM (light gradient boosting machine)表现出色,为此选用该模型进行预测。然而,LightGBM预测性能受自变量的数量和性质影响较大,同时较多超参数的使用使其预测状态难以最优,为此采用MIV (mean impact value)算法和CD (coordinate descent)算法对模型进行改进。为验证提出模型的预测性能,以姬塬油田西部长8段致密砂岩储层为例进行研究。设计了三个实验分别对提出模型进行性能分析。根据实验结果发现MIV和CD的使用能提高LightGBM的预测性能,同时提出模型在预测上较常规混合机器学习模型表现更为高效。实验结果证明提出模型可在纯数据驱动下高效地预测渗透率,较经典物理模型更具有适用性和推广性。  相似文献   

7.
野火易发性评价对野火灾害的前期预防以及灾害管理决策的制定至关重要。目前野火易发性的研究主要集中于提高模型的预测精度,而往往忽略对模型的内部决策机制进行解释分析。为此,构建了一种基于可解释机器学习的野火易发性模型,并详细分析了各因子对野火易发性预测结果的影响。以南宁市历史野火样本为基础,综合考虑样本的空间分布特征,选取高程、归一化植被指数(normalized difference vegetation index, NDVI)、年均降雨和平均气温等18项评价因子,利用分类和回归树(calssification and regression tree, CART)、随机森林(random forest, RF)、轻量的梯度提升机(light gradient boosting machine, LGBM)和极致梯度提升(extreme gradient boosting, XGBoost)4种机器学习模型构建野火易发性预测模型。基于性能最优的易发性模型,运用沙普利加和解释(shapley additive explanations, SHAP)方法完成特征全局性解释、依赖性分析和典型样本...  相似文献   

8.
为提高光伏电站辐照强度的预测精度,提出一种基于长短时记忆网络(long short term memory network,简称LSTM)和轻梯度提升机(light gradient boosting machine,简称LightGBM)的组合模型.以LightGBM模型的预测结果作为LSTM模型的一个特征输入,然后采用误差倒数法对以上两种模型的数据进行加权组合,得到组合模型的预测值.算例分析结果表明:与其他3种模型比较,该文组合模型的预测精度最高.  相似文献   

9.
为深入挖掘驾驶人因素与交通事故之间的关系,提出一种基于SMOTENC和极端梯度提升(extreme gradient boosting, XGBoost)的驾驶人交通状态优劣分类算法。首先针对交通事故发生与否不平衡的特点,使用SMOTENC算法对数据进行上采样并在采样过程中加入随机扰动,解决了数据不平衡问题。然后使用Embedded算法结合L1正则化,通过模型评估完成对特征子集的选择。最后使用机器学习的方法将XGBoost算法用于执行数据的特征提取和分类过程。实验表明,在对驾驶人的交通状态进行综合评价的任务上,XGBoost模型的准确率为99.85%,相较于随机森林、支持向量机等对照组模型,提升了约1.12%-1.80%。除此之外,使用SMOTENC算法对数据不平衡问题进行处理后,通过混淆矩阵观察到模型对于好坏个体均具备较好的识别能力。  相似文献   

10.
爆破产生的爆堆大块率问题一直以来都影响着矿山的生产效益.利用机器学习机制中集成学习思想实现大块率预测.以满洲里乌山铜矿实际采集的36组实测数据为例,整理形成10种特征数据.通过给定参数循环训练调优,再用交叉验证网格搜索的方法进行模型二次调优,并对比调优实现后模型与随机森林法、XGBoost模型、LightGBM模型和CatBoost模型进行效果对比.结果表明,经过两轮调优后的CatBoost模型预测效果明显高于其他几种模型,R2准确度可达98.83%,证明了两轮调优后CatBoost模型具有较高的预测水平,验证了该方法在大块率预测研究中的可行性,为爆破参数设计和大块率优化分析提供了可靠的参考.  相似文献   

11.
为更充分挖掘多元负荷序列间的有效信息,从而提高预测精度,提出了一种集成贝叶斯超参数优化算法、注意力机制的长期和短期时间序列网络(long and short-term time-series network with attention,LSTNet-attention)以及误差修正的短期负荷预测模型。首先,构建基于贝叶斯优化的LSTNet-attention模型进行初步预测,利用贝叶斯算法优化模型多个结构参数,降低人工设置参数的随机性,并通过注意力机制合理分配特征权重;然后,通过基于贝叶斯参数优化的极端梯度提升算法(extreme gradient boosting,XGBoost)误差修正模型来挖掘初步预测误差序列中潜在、未被利用的有效信息,进行误差预测和修正,进而得到最终的预测结果。通过使用澳大利亚某地真实负荷数据进行实证分析,实验结果表明,所提预测模型相较于其它模型具有更好的预测效果,可为负荷预测等工作提供一定参考。  相似文献   

12.
针对热镀锌钢卷力学性能预报建模条件属性选取难、预报精度不足的问题,研究了热镀锌钢卷力学性能梯度提升树(gradient boosting decision tree,GBDT)预报模型。利用互信息差算法综合评估工艺参数、化学成分和钢卷尺寸参数等条件属性的相对重要性以及属性之间冗余性,进行模型条件属性筛选;采用同分布原理进行样本划分,结合网格搜索法和交叉验证法优化模型参数,建立力学性能GBDT预报模型。将GBDT模型预报结果与随机森林(random forest,RF)、AdaBoost算法和BP神经网络的预报结果进行比较,比较表明GBDT模型优于其他模型,90%的数据样本预测的绝对误差小于14.24 MPa,94.6%的数据样本相对误差在6%范围内,具有更高的预测精度。  相似文献   

13.
基于美国最大的P2P平台Lending Club2019年的个人借款数据,尝试将深度学习方法引入个人信用风险评估领域,与集成学习构建串联结构的组合学习模型.具体做法是将深度神经网络的隐藏层作为"特征提取器",将原始变量转换为更高层次的抽象特征后输入随机森林、XGBoost、LightGBM和CatBoost 4种集成学...  相似文献   

14.
网络数据的正确分类对于网络环境的监控和维护具有重要作用。在数据不平衡状态下解决数据分类和处理复杂的特征关系尤为重要,为此提出一种改进SMOTE(synthetic minority over-sampling technique)+GA-XGBoost(genetic algorithm-extreme gradient boosting)的机器学习分类方法。将局部离群因子引入SMOTE插值过程,对少数类样本过采样,并对多数类样本随机欠采样,从而实现样本再平衡;同时,在模型训练过程中为增加模型拟合度,将具有进化迭代优势的遗传算法与XGBoost相结合,解决XGBoost参数众多、特征学习收敛较慢等问题。实验采用UNSW_NB15数据集,选择多层感知机、K近邻、决策树等机器学习算法及SMOTE+XGBoost等不平衡数据训练方法进行试验对比,结果表明该方法具有较好的分类预测准确率(97.40%)及较高的平均召回率(70.2%)和平均F1-score(68.8%)。并在本实验室工业信息安全平台采集的数据进行实验研究,分类准确率为99%,进一步验证了该方法的有效性和可行...  相似文献   

15.
【目的】比较分析XGBoost模型、LightGBM模型、随机森林模型(RF)、K最近邻模型(KNN)、长短期记忆神经网络(LSTM)、决策树模型(DT)共6个PM2.5浓度预测模型,以准确、及时预测环境PM2.5浓度。【方法】基于重庆市合川区2020年全年空气质量监测数据和气象数据,通过最大相关最小冗余算法(MRMR)进行数据降维选择最优特征子集,作为模型的输入,逐一进行PM2.5浓度预测;考虑到不同季节PM2.5浓度差异较大,故分季节预测了PM2.5浓度;为了探究各模型预测性能,计算了各模型运行时间和内存占用,并基于PM2.5与特征变量的相关性和特征变量的重要性探讨了模型预测性能季节性差异原因。【结果】模型总体预测精度从高到低排序为 XGBoost、RF、LightGBM、LSTM、KNN、DT模型;预测性能方面,6个模型均表现为秋冬季节预测精度高于春夏季节;LightGBM模型可在保证模型精度的情况下,大幅减少模型训练时间和内存占用;特征重要性显示PM10浓度、气温和气压的重要性高,O3浓度、风向和NO2浓度重要性相对较弱。【结论】采取MRMR方法进行数据降维选取的最优特征子集能较好地预测PM2.5浓度;相比较而言,XGBoost、RF、LightGBM、LSTM模型在PM2.5浓度预测上具有较优性能,其中综合性能较好的为LightGBM模型。  相似文献   

16.
为准确预测太阳辐射量,提高太阳能利用效率,提出一种相关性分析和梯度提升决策树(gradient boosting decision tree,简称GBDT)组合的太阳辐射量预测算法.利用相关性分析选取预测算法的最优输入指标,使用数据矫正方法剔除粗大误差数据.将该文算法与传统算法的预测结果进行比较,结果表明该文组合预测算法具有更高的预测精度.  相似文献   

17.
技术方案深度的不足导致依据定额概预算来确定输电线路工程投资的方法准确性低、工作量大,因此,研究基于机器学习的投资预测模型需求迫切。针对输电线路投资的高维数、非线性等特点,提出了基于极端梯度提升(extreme gradient boosting, XGBoost)算法的输电线路工程投资预测方法。通过采用实际输电线路工程数据对模型进行训练和测试,预测结果显示XGBoost模型在预测精度、结果偏差方面相较于神经网络和支持向量机(support vector machine, SVM)都具有较大的优势,能输出指标重要性排序,为决策者提供有效的投资额和控制指标参考,且模型的可靠性和可解释性较高。  相似文献   

18.
唐中君  吴凡  倪浪 《科技促进发展》2020,16(10):1221-1229
电影首映日票房预测对该日排片、后续放映日票房及总票房有显著影响。在构建考虑竞争的电影首映日票房预测变量集的基础上,建立首映日票房集成预测模型。首先使用多元线性回归(multiple linear regression, MLR)、支持向量回归(support vector regression, SVR)、套索回归(Least absolute shrinkage and selection operator, Lasso)和极端梯度提升(Extreme Gradient Boosting, XGBoost)等算法建立基学习器,随后使用XGBoost算法作为原学习器构建堆栈集成预测模型,最后利用收集到的数据进行对比实验。实验证明,加入竞争变量的电影首映日票房预测变量集适用于首映日票房预测;相比单一模型,提出的集成预测模型的准确性、泛化性能和稳定性均有提升,相比较传统预测方法对首映日票房预测更准确。提出的集成预测模型有助于提升首映日票房排片的有效性。  相似文献   

19.
针对天然气管道周围滑坡灾害预测中的数据缺失和特征数量少的问题,采用基于LightGBM框架实现的梯度提升决策树算法,通过插值法补齐缺失数据,利用历史特征数据生成近期特征和远期特征,得到影响斜坡演变过程各因素的重要性排序及算法最优参数集合,实现对天然气管道周围滑坡灾害的有效预测.结果表明,在对天然气管道周围滑坡灾害进行预测中,该方法相比XGBoost模型具有更高的准确率,同时处理速度也更快,证明了LightGBM算法在滑坡灾害预测方面应用的可行性和有效性.  相似文献   

20.
针对室内定位算法在定位时所用时间较长和定位精度较低的问题,提出了一种基于改进LightGBM算法的室内定位算法。该算法首先针对指纹库中的数据进行预处理,通过KNN算法去除异常点和离群点,降低环境噪声干扰,提高数据可靠性。接下来,将样本集划分为训练集和测试集,使用LightGBM算法对进行建模。同时,使用遗传算法调整LightGBM算法中的参数,并根据适应度函数寻找最优参数,得到LightGBM+GA坐标预测模型。最后,根据优化后的参数建立预测模型实现坐标预测。实验结果表明,该算法在WiFi定位的精度上较与XGBoost算法提高0.1m,相较于GBDT算法提高0.19m,在定位时间上,LightGBM+GA算法比GBDT算法快5.10s,比XGBoost算法快5.97s,具有较好的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号