首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为有效进行城市空气质量预测、推进城市空气污染防治,弥补传统统计学模型在大数据时代背景下对城市空气质量预测准确率低、容错能力差等问题,提出利用随机森林回归构建城市空气质量预测模型;综合考量污染物浓度、气象参数、时间参数等多方面影响因素,通过网格搜索法调整参数的最优组合,构建基于随机森林回归算法的城市空气质量预测模型;基于重庆市2017-01-01—2020-07-31的指标数据,对重庆市空气质量进行预测分析,结果表明:在模型下训练集与测试集的确定性系数R~2均在99%以上,均方误差D_(MSE)和平均绝对误差D_(MAE)在训练集和测试集上的取值均在可接受范围内,证实模型具有运行速度快、预测误差小、具有较高的预测精度等优点,具备较好的学习能力与泛化能力。  相似文献   

2.
基于随机森林的基金重仓股预测   总被引:1,自引:0,他引:1       下载免费PDF全文
首先通过对基金重仓股的财务指标和市场指标的分析,建立一套科学合理的基金重仓股指标体系;其次利用随机森林建立基金重仓股的预测模型;最后通过实验验证了方法的有效性和优越性.本研究将为投资者提供一个投资决策的优良工具.  相似文献   

3.
为准确预测东部某油田机械钻速,在针对该油田某井机械钻速影响因素分析的基础上,根据现场经验对不同直径PDC钻头的机械钻速进行分级,运用随机森林算法、K近邻算法、支持向量机算法建立机械钻速分类预测模型,并运用遗传算法优化模型参数,得到了满足施工设计及现场作业需要的机械钻速分类预测方法。结果表明,运用遗传算法优化后的随机森林模型预测机械钻速分类准确率为82.1%,明显高于K近邻算法和支持向量机算法,该方法可指导该区块钻井施工参数优化,以提高钻井施工效益。  相似文献   

4.
空气质量状况直接影响着人们的身心健康,空气污染治理一直是一个广受争论的热点问题.本文基于2015~2020年江西省各地级市主要污染物浓度和气象数据,采用时间序列与随机森林模型,深入分析江西省各地级市的空气质量状况及其影响因素,得到以下结果:(1)从整体角度来看,2015~2020年间江西省城市的空气质量一直处于优良状态...  相似文献   

5.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。  相似文献   

6.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

7.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

8.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

9.
随着智能燃气网概念的普及和燃气智能表的发展,燃气负荷数据量呈指数级增长,燃气负荷预测面临新的挑战,传统的基于离线批量学习的数据预测方法已无法满足大数据量的实时数据预测需求。针对燃气负荷数据增量到达的预测场景,提出了一种增量式的随机森林回归(Incremental Random Forest Regression,IRFR)算法。该算法将一定量的样本存储在叶节点,通过衡量样本集变异系数来控制叶节点分裂;针对大数据量的情况,设计了样本丢弃策略来控制内存空间。在对上海市燃气负荷数据进行特征选择、提取并建模后,将IRFR算法应用于燃气负荷预测。实验结果表明,IRFR算法相比于传统的随机森林算法具有相当的准确率,同时所需训练时间较短,更适用于大数据量的增量学习场景。  相似文献   

10.
为了实现空气质量的在线预测,提出了一种基于XGBoost算法的改进集成学习算法OPGBoost。首先对PI(plant information)实时数据库系统进行二次开发,构成大数据挖掘与分析平台,运用数据融合工具对原始数据进行预处理,并采用Boruta算法进行特征选择,从而构造出包含更多属性特征量的有效数据集。然后对XGBoost算法中的一阶和二阶导数进行优化,并通过时间滑动窗口和衰减函数机制获取训练数据以及训练模型的权重,最后采用Bagging集成学习策略构成OPGBoost组合模型。实验结果表明,针对基于PM2.5浓度和AQI表征的空气质量预测,本文方法与4种已有算法相比在准确性和实用性方面具有明显的优势,能够较精确地预测未来1、12、24h的空气污染情况。  相似文献   

11.
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森林作为基学习器建立集成学习预测模型,导入训练子集并训练各个随机森林.之后,依据各个随机森林在验证集上的预测性能,采用贝叶斯模型组合算法制定组合策略.个体随机森林在测试集上的预测值经过模型组合策略得到最终输出.最后,基于气象实测数据建立仿真实验,并引入其他四种预测方法进行对比仿真研究,通过实验结果验证了文中所提出预测方法在太阳能辐照度预测问题中的准确性和可靠性.  相似文献   

12.
 边坡工程是露天煤矿中的重点工程,边坡的稳定性关系着煤矿的安全生产。边坡稳定性预测是边坡防治工作的前提,针对煤矿边坡工程稳定性预测的复杂性,为了快速、有效地判别煤矿边坡稳定性,利用随机森林算法建立煤矿边坡稳定性预测模型。通过选取与煤矿边坡工程密切相关的岩石重度、黏聚力、内摩擦角、边坡角、边坡高度、孔隙水压力6 个指标作为边坡稳定性的影响因素,即为随机森林预测模型的输入,边坡稳定性状态作为随机森林预测模型的输出,通过随机森林算法建立边坡稳定性影响因素与边坡稳定状态之间的非线性关系。利用煤矿实测30 组边坡稳定性数据作为随机森林预测模型的训练数据集,进行模型的学习训练;另用12 组边坡稳定性数据作为预测模型的测试数据,通过训练好的边坡稳定性预测模型进行测试;为了验证随机森林预测模型的准确率,同时与SVM 和BP 神经网络的测试数据进行比较。结果说明,选取煤矿边坡稳定性的6 个指标建立的随机森林预测模型,人工控制参数较少、结构简单、容易实现,且具有较高的准确度,边坡稳定状态预测结果与煤矿边坡工程实际状态相吻合,能有效预测边坡稳定性状态,指导煤矿边坡防治工作的开展。  相似文献   

13.
汽车尾气的主要成分是CO气体,是公路隧道通风设计的一项重要参数。准确、快速地预测隧道内CO气体浓度,能够为隧道通风控制提供有力参考,有助于CO气体浓度的及时控制,对保障隧道内人员的健康、安全和隧道绿色节能十分必要。采用公路隧道实地监测CO气体浓度数据,建立了以监测点位置、交通量、车速、风速为输入特征的公路隧道CO气体浓度预测随机森林模型。通过整理3 300 m长隧道CO气体浓度数据,对比了CO气体浓度实测数据与模型预测值,验证了模型的预测精度。结果表明,基于随机森林建立的CO气体浓度预测模型具有良好的预测精度,能够准确地预测隧道内CO气体浓度,测试集的均方根误差(root mean square error, RMSE)和决定系数R2分别为0.497 4和0.943 7;该预测模型性能显著优于线性回归模型和支持向量机模型;预测模型能够推广应用于其他隧道的CO气体浓度预测,对应的RMSE和R2分别为0.909 5和0.729 5,可以在已知测点位置、交通量、车速、风速的情况下预判隧道内CO气体浓度,为隧道通风控制或安全预警提供数据参考;特征重要...  相似文献   

14.
针对井口压力控制作业中传统方法过度依赖专家经验和数学模型运算精度的问题,提出一种基于随机森林(Random Forest,RF)的多模型融合算法对压井方式进行分类判断。首先,将专家经验结构化、数据化,转化成可被机器学习模型使用的数据形式,同时,结合油气井的基础数据和工况参数,作为智能模型的重要参数来描述压井作业的特征空间;然后,将特征数据通过特征工程进行特征筛选、特征编码和特征选择等处理;最后,构建出基于随机森林的Stacking双层融合模型,实现压井方法的分类预测。通过实验验证,与单模型的机器学习算法相比,本方法具有更高的预测精度。  相似文献   

15.
机器学习在近几年得到了迅猛的发展,其中随机森林(Random Forest)在决策树的基础上演变出来的一种机器学习方法,利用其可以进行数据建模,分类,预测等。探索了随机森林算法在数据预测上的应用,基于一个泰坦尼克乘客数据集,预测泰坦尼克号乘客的命运(是否生存)。此数据集包含了将近80%乘客的信息和生存状态,包含1 309个样本,每个样本包含14个属性。实验验证了随机森林算法在受试者工作特征曲线等方面表现较好,具有一定的参考性和可拓展性。  相似文献   

16.
以某钢铁企业的热轧带钢生产实际数据作为分析对象,基于改进的随机森林算法分析工艺参数与产品质量间的隐含关系,进行影响产品质量关键工艺参数的特征提取,建立热轧带钢产品缺陷预测模型.实验结果表明,对非平衡数据集进行平衡处理可以提高样本预测精度;采用CART与C4.5相结合的方法比单一方法可以进一步提升预测精度;同时根据特征的高相关与低相关特性,将互信息作为评价指标应用于特征选择,可以提升随机森林算法的分类效果.在以上三种改进策略下,热轧带钢缺陷的识别率得到明显提高.  相似文献   

17.
企业破产数据中存在高维不平衡的特性,会导致模型预测性能降低且预测结果偏向于多数类.为了提高具有破产风险企业的预测准确率,将从特征、数据、模型3个方面综合考虑.首先提出一种Pearson相关系数特征提取规则进行特征选择,再使用已有的平衡化技术进行数据平衡化处理,最后提出了一种基于改变分类阈值的随机森林算法构建企业破产预测模型.在包含10173个公司数据集上的实验结果表明,本文的研究方法具有一定的优越性,对后续进行企业破产预测研究也具有较高的参考价值.  相似文献   

18.
由于用单一地震属性描述浊积岩储层厚度有很大不确定性,基于多种地震属性,将随机森林算法引入对浊积岩储层厚度的预测中。通过试验,优选出弧长、能量半时、均方根振幅、最大振幅、平均能量和道积分等六种地震属性,构建井旁道地震属性与浊积岩厚度之间的关系模型,对浊积岩储层厚度进行预测。研究结果表明,随机森林方法对异常值和噪声具有很好的容忍度,训练速度快,泛化误差小,不易出现过拟合现象,预测精度高于神经网络方法,有较好的推广价值。  相似文献   

19.
采用机器学习中的随机森林算法对葡萄酒的化学特性与葡萄酒的品质之间的关系进行学习,并建立了有效的模型对葡萄酒品质进行预测。该方法具有预测准确率高、预测精度稳定以及葡萄酒分级详细等特点,在葡萄酒行业品质预测的应用中,能够有效地减少因品酒师个人因素带来的评级波动。还将实验结果与已经存在的一些工作进行量化比较,特别是在成本(风险)比较中,所提供的方法明显优于已有的方法。  相似文献   

20.
泄水建筑物出口无法正对河道,地形条件难以满足传统底流消能的池长要求时,增加池深与池宽形成矩形消力井是一种可行的选择。基于水工模型试验数据,通过随机森林算法底板动水压强预测模型,研究入射水流动能变化条件下的矩形消力井体型。成果表明:(1)预测模型可以得到矩形消力井几何边界重要程度,从大到小依次为井深、井长、井宽;(2)进而给出了不同傅汝德数入射水流适宜井宽条件下,底板动水压强能够满足消能要求的井深、井长组合关系。(3)在分析入射水流动能(傅汝德数)所对应的多组消能水体容积基础上,得出了满足消能效果的最小消能水体容积和边界取值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号