首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
教育规模不断扩大,高校在校生人数持续上升,导致学生的能力参差不齐.为了提升教育水平,教师需掌握学生在校期间的学习状态,预测学生期末成绩是教师掌握学生学习状态的重要途径之一.目前的研究工作主要采用传统的机器学习算法进行成绩预测,如随机森林、贝叶斯、深度森林等,但精度不高;也有利用深度学习算法进行预测,但模型缺少可解释性. Lightgbm(Light Gradient Boosting Machine)算法内存消耗低,时间复杂度低,而XGBoost(eXtreme Gradient Boosting)算法精度高.因此,基于提高精度与降低模型内存消耗的策略,将深度森林中的随机森林与极限随机森林模块分别替换为Lightgbm和XGbBoost,提出一种基于Lightgbm和XGBoost算法的优化深度森林算法LIGHT-XDF.在八个数据集上与其他模型进行对比实验,结果表明,LIGHT-XDF算法的综合性能最好.  相似文献   

2.
野火易发性评价对野火灾害的前期预防以及灾害管理决策的制定至关重要。目前野火易发性的研究主要集中于提高模型的预测精度,而往往忽略对模型的内部决策机制进行解释分析。为此,构建了一种基于可解释机器学习的野火易发性模型,并详细分析了各因子对野火易发性预测结果的影响。以南宁市历史野火样本为基础,综合考虑样本的空间分布特征,选取高程、归一化植被指数(normalized difference vegetation index, NDVI)、年均降雨和平均气温等18项评价因子,利用分类和回归树(calssification and regression tree, CART)、随机森林(random forest, RF)、轻量的梯度提升机(light gradient boosting machine, LGBM)和极致梯度提升(extreme gradient boosting, XGBoost)4种机器学习模型构建野火易发性预测模型。基于性能最优的易发性模型,运用沙普利加和解释(shapley additive explanations, SHAP)方法完成特征全局性解释、依赖性分析和典型样本...  相似文献   

3.
为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率、精确率、F1分数和AUC等指标分别为95.67%、97.17%、95.56%和97.96%,均优于Logistic回归、支持向量机、随机森林、XGBoost算法和基于网格搜索的XGBoost算法;基于CS-XGBoost的房价预测模型的决定系数、均方根误差及平均绝对误差分别为0.905 5、2.943 5及2.165 4,预测精度较XGBoost算法得到显著提升。  相似文献   

4.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

5.
【目的】比较分析XGBoost模型、LightGBM模型、随机森林模型(RF)、K最近邻模型(KNN)、长短期记忆神经网络(LSTM)、决策树模型(DT)共6个PM2.5浓度预测模型,以准确、及时预测环境PM2.5浓度。【方法】基于重庆市合川区2020年全年空气质量监测数据和气象数据,通过最大相关最小冗余算法(MRMR)进行数据降维选择最优特征子集,作为模型的输入,逐一进行PM2.5浓度预测;考虑到不同季节PM2.5浓度差异较大,故分季节预测了PM2.5浓度;为了探究各模型预测性能,计算了各模型运行时间和内存占用,并基于PM2.5与特征变量的相关性和特征变量的重要性探讨了模型预测性能季节性差异原因。【结果】模型总体预测精度从高到低排序为 XGBoost、RF、LightGBM、LSTM、KNN、DT模型;预测性能方面,6个模型均表现为秋冬季节预测精度高于春夏季节;LightGBM模型可在保证模型精度的情况下,大幅减少模型训练时间和内存占用;特征重要性显示PM10浓度、气温和气压的重要性高,O3浓度、风向和NO2浓度重要性相对较弱。【结论】采取MRMR方法进行数据降维选取的最优特征子集能较好地预测PM2.5浓度;相比较而言,XGBoost、RF、LightGBM、LSTM模型在PM2.5浓度预测上具有较优性能,其中综合性能较好的为LightGBM模型。  相似文献   

6.
暴雨内涝的快速预测对于提升灾害应急处置能力具有重要意义。针对传统数值模拟复杂耗时导致难以满足暴雨内涝预测时限要求的问题,该文基于机器学习方法构建城市暴雨内涝时空快速预测模型。利用城市综合流域排水模型(InfoWorks ICM)模拟的高精度网格结果作为数据驱动,综合考虑降雨因素、地理数据以及排水管网的分布情况,分别基于随机森林、极限梯度提升(XGBoost)、K最近邻以及长短期记忆(LSTM)神经网络建立城市暴雨内涝快速预测模型。以北京市某区域为例,开展算例研究,结果表明:随机森林模型的空间预测效果最佳,淹没范围预测准确率可达99.51%,积水深度平均预测误差3.55%; LSTM神经网络模型能准确预测内涝点积涝过程的水深时序变化。在该算例场景下,所构建的机器学习模型可实现s级的暴雨内涝时空快速预测。  相似文献   

7.
针对安徽省气象能见度数据缺测问题,本文选取安徽省四种不同地形条件下的自动气象站点(黄山站、灵璧站、山南溪谷站、白泽湖站)2017-2019年的气象数据,首先采用灰色关联分析法筛选出与能见度联系紧密的气象要素,然后构建遗传算法(Genetic algorithm, GA)和粒子群算法(Particle swarm optimization algorithm, PSO)混合算法优化BP(Back Propagation)神经网络的预测模型,对四种不同地形条件下的自动气象站点的能见度进行预测,并与RF预测模型、XGBoost预测模型的预测效果进行对比,结果表明采用GA-PSO-BP神经网络预测模型无论在哪种地形条件下,预测误差更小,模型精度更高。  相似文献   

8.
针对网络个人信用有效评分缺失的问题,分析了互联网信贷个人信用评估数据的特点,选用支持向量机、随机森林和XGBoost分别建立了信用预测模型,并对3种单一模型进行了投票加权融合. 基于互联网信贷数据的特点,在特征工程中对样本集特征进行了离散化、归一化和特征组合等处理. 为增加对比,对实验数据集进行了FICO评估核心Logistic回归分析. 实验结果表明:3种单一算法性能均优于Logistic回归,XGBoost表现优于支持向量机和随机森林模型,预测相对准确;投票融合模型的表现比单一模型更好,模型分辨能力更优秀,预测精度更高,更适用于互联网信贷个人信用评估.  相似文献   

9.
Zhou  HaoDa  Hu  JianFang  Ming  LiLi  Peng  PingAn  Zhang  Gan 《科学通报(英文版)》2011,56(23):2456-2463
Branched glycerol dialkyl glycerol tetraethers (GDGTs) were analyzed in peat samples taken from the Zoigê grassland, located on the eastern margin of the Qinghai-Tibetan Plateau. The mean annual air temperature (MAAT) and pH in the 210 Pb-dating peat core were reconstructed based on the cyclization of branched tetraethers (CBT) and methylation of branched tetraethers (MBT) indices for the last 150 years. The results showed that the MAAT and pH values involved three stages of variation over the last 150 year...  相似文献   

10.
为了快速准确地进行工程造价预测,本文收集高层住宅工程造价历史数据,利用相关性系数法对定量指标进行约简,运用Python构建了以随机森林、XGBoost和岭回归作为初级学习器,岭回归作为元学习器的Stacking集成学习的融合模型。结果表明:基于Stacking融合模型预测精度较高,结果稳定,平均绝对误差在5%以内,有助于项目建设前期的造价预测。  相似文献   

11.
采样数量与空间插值方法对土壤属性预测精度的影响   总被引:4,自引:0,他引:4  
不同的采样数量以及空间插值方法会对土壤属性预测精度产生影响。本文以安徽省淮北平原典型旱作农业区蒙城县为例,采用随机抽样的方法,从550个土壤样点中随机抽取50个样点作为验证样本,之后抽取500、400、300、200和100五个样本子集,采用普通克里格法、反距离权重插值法、局部多项式插值法和径向基函数插值4种空间插值方法,解析研究区土壤有机质空间变异,并利用独立验证和交叉验证方法比较不同样本数量和插值方法的预测精度的差异。发现不同采样数量对区域内土壤属性预测精度会产生较大影响,在淮北平原县域尺度上,以数字土壤属性制图为目的的土壤采样中,200个样点是比较合理的采样数量。不同插值方法对预测精度影响不显著,从交叉验证与独立验证的结果均表明,普通克里格法最优,局部多项式插值法和径向基函数插值法次之,反距离权重插值法的结果最差。  相似文献   

12.
基于连清数据的湖南森林碳密度估计及变化特征分析   总被引:1,自引:0,他引:1  
【目的】通过碳密度时空分析、驱动因素分析,探索科学适用的基于森林资源连续清查资料的大区域森林碳汇功能监测方法。【方法】以湖南省1999—2014年4期6 615块森林资源连续清查固定样地数据为主要信息源,采用Pearson相关系数,在5种理论半方差模型精度比较分析基础上,选取预测性能最高的模型进行森林碳密度克里金内插、时空分析、驱动因素分析。【结果】5种理论半方差模型预测精度按照从高到低排序为:球体模型>指数模型>圆形模型>线性模型>高斯模型。1999、2004、2009、2014年湖南省森林碳密度分别为17.156、17.938、18.491、20.489 t/hm2,标准差分别为13.309、15.499、16.211、17.141 t/hm2。1999—2014年,湖南省森林碳密度呈稳步上升趋势,空间聚集性减弱、破碎化趋势增强; 1999—2014年,湖南省森林碳密度在空间分布上整体呈现出西部、南部、东部较高(>20 t/hm2),北部、中部较低(5~20 t/hm2)的空间分布格局。1999—2014年,森林碳密度与植被覆盖度、坡度、土壤厚度始终保持正相关关系,与灯光亮度的相关性在1999、2004年为负相关,在2009、2014年则为正相关。【结论】湖南省碳密度的时空变化受林业政策调整和社会经济条件变化的双重影响,应加强退耕还林、公益林生态效益补偿的力度,巩固集体林权制度改革成果。  相似文献   

13.
为了快速精确地利用基本物性指标预测湿陷性黄土的湿陷性系数,基于多种数据挖掘方法提出了离散型二项式系数组合预测模型。首先,采用相关系数法和随机森林重要性指数法综合选取模型基本物性指标为饱和度、干密度、液性指数和天然含水量;然后,分别利用多元线性回归、BP神经网络、支持向量机回归(SVR)和随机森林(RF)回归对黄土湿陷性系数进行预测,并将预测结果进行组合,得到4种单一模型、2种传统组合模型和离散型二项式系数组合模型预测结果;最后,利用6种不同精度指标对上述7种预测模型展开精度分析。结果表明:组合预测模型精度整体高于单一预测模型,且提出的离散型二项式系数组合模型各精度指标均为最优,平均相对误差为3.43%。可见提出的离散型二项式系数组合模型可为湿陷性黄土地区的工程设计提供参考。  相似文献   

14.
【目的】 森林冠层密度与林分年龄、植被生长状况有关,在区域森林净初级生产力遥感估测中,结合森林冠层密度以期提高估测精度。【方法】 以广东省韶关市为研究对象,选用2017年Landsat-8 OLI影像、2017年357块森林资源连续清查固定样地数据为主要信息源,分别采用随机森林、多元线性回归、人工神经网络和K最近邻分类法等4种模型,结合森林冠层密度制图器(FCD)进行区域森林净初级生产力特征变量的选取、参数建模、模型精度评价和森林净初级生产力空间制图。【结果】 特征变量中,红光波段(B4)、归一化植被指数(NDVI)、比值植被指数(RVI)、叶面积指数(LAI)、缨帽变换土壤植被因子、纹理特征和地形特征在森林净初级生产力反演中有重要作用。将森林冠层密度因子加入反演模型后,4种遥感估测模型精度均有大幅度提高。对4种遥感估测模型进行性能比较,随机森林模型精度最高,其次是多元线性回归模型、人工神经网络模型,K-最近邻分类模型精度最低。研究区内森林净初级生产力平均值为10.689 t/(hm2·a),高森林净初级生产力 [≥18 t/(hm2·a)]林分面积仅占研究区的19.61%,主要分布在海拔较高的西北部。【结论】 结合冠层密度进行森林净初级生产力的建模,可有效提高模型估测精度。  相似文献   

15.
由于短期光伏预测中气象因素的时间尺度不同,直接分析其对光伏功率的相关性,易忽略时间尺度的影响,进而导致预测模型误差。为提高光伏功率预测精度,构建了预测模型。首先,利用互补集合经验模态分解(complementary empirical mode decomposition, CEEMD)将光伏序列进行分解,得到在不同时间尺度上的光伏分量;然后,通过Pearson相关系数分析各光伏分量与空气温度、太阳辐射度、风速、风向和空气湿度的关系,对于强相关分量建立关于气象因素的随机森林回归(random forest regression, RFR)预测模型,弱相关分量直接通过双向长短期记忆网络(bidirectional long short-term memory neural network, BiLSTM)进行预测;并将预测求和输出。通过安徽省蚌埠市光伏电站7月实测数据进行验证,实验结果表明,所提预测模型CEEMD-BiLSTM-RFR相比传统预测模型有较好的预测精度。  相似文献   

16.
准确地光伏预测对电力调度、容量分析和机组组合至关重要。现有的数据驱动预测算法在计算速度和预测精度上有一定的提升,但未能考虑光伏发电的内在机理,存在泛化的风险。针对上述问题,提出了一种基于Stacking框架的机理模型和数据驱动结合的预测模型。其中,光伏发电机理模型将嵌入Stacking框架一层预测结构,构成基于长短期记忆神经网络(long short-term memory, LSTM)、极度梯度提升树(extreme gradient boosting, XGBoost)和机理模型的并行预测学习器。机理模型将光伏发电限制在一个合理的范围内,作为数据驱动模型的预测约束。所提出的模型能够从机理模型中提取有用的固有信息,并利用数据分析的能力提取历史数据中的非线性关系。基于安徽省某地区实际数据分析,所提模型相比传统数据驱动方法具有更高的精度。  相似文献   

17.
为进一步探索集成模型在滑坡易发性评价中的适用性,以陕西省汉中市汉台区为例,结合相关资料与野外调查圈定40处滑坡,通过地质类、水文类、人类工程活动类中选取12个影响因子构建逻辑回归树(logistic model tree, LMT)和旋转森林(rotation forest, ROF)模型,分别生成滑坡易发性分区图,采用ROC(receiver operating characteristic)曲线进行模型精度验证与比较。结果表明,研究区滑坡受地形地貌、平面曲率与岩土体类型影响最大;两种模型预测率均较高,易发性等级分区结果与历史滑坡位置分布趋势基本一致;ROF模型的训练集正确率和验证集预测率分别为77.4%和93.1%,高于LMT模型的75.5%和84.0%;ROF模型滑坡极高易发区频率比为6.52,多于LMT模型(2.07),可见ROF模型对研究区滑坡易发性更加敏感,预测结果可靠度高;本文ROF模型滑坡易发性分区结果可为后期研究区防灾减灾与土地规划提供依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号