首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
提出基于粗糙集和随机森林算法辅助糖尿病并发症分类。首先,运用简化的分明矩阵法对属性约简,产生新的决策信息系统;其次,采用随机森林算法对该新信息系统生成随机森林,实现分类;最后,通过糖尿病并发症临床诊断数据子集测试。实验表明该方法有效性,并优于直接用随机森林算法分类。  相似文献   

2.
大多数机器学习算法能得到较好的分类效果,但模型却无法解释;而随机森林等模型有良好的可解释性,却无法处理中医数据中兼证的情况。本文利用极值随机森林算法对慢性胃炎中医数据进行证候分类研究,其中决策树的叶节点能输出多个标签,通过加权机制综合分量来处理兼证问题。与已有多标记学习算法和C4.5、CART等基于决策树的算法进行比较,实验结果表明,极值随机森林算法无论在6个证型的分类准确率上,还是在多标记评价指标上都具有更好的效果,而且模型中得到的规则基本符合中医理论。  相似文献   

3.
以湖北洪湖湿地自然保护区为研究区,采用随机森林算法对研究区内湿地信息提取.以Sentinel-2A遥感影像为数据源提取光谱特征、植被指数、水体指数、红边指数、纹理特征等特征变量,在随机森林算法框架下,对不同特征变量进行特征重要性评估,比较分类后精度并对特征组合进行优选.将基于随机森林算法的分类精度与传统的基于像元的支持向量机分类方法和最大似然分类方法的分类精度相比较,并通过双比例Z检验比较各算法中正确分类像元的比例统计各分类算法之间的分布差异.结果表明: 1) 特征个数为13时,分类精度达到最大,随着特征个数的增多,分类精度呈现波动减小的趋势; 2) 特征变量中蓝光波段重要性得分最高,达到2.85,可见光(B2、B3)与红边指数(IRECI、MCARI)重要性排名靠前,对于提取湖泊湿地信息具有重要意义; 3) 基于特征优选的随机森林方法分类精度优于支持向量机和最大似然法分类后的精度,其总体精度分别高出6.02%和7.57%;经检验, χ2分别达到25.891和38.895,具有显著差异,表明基于特征优选的随机森林算法分类对湿地信息提取发挥重要作用。  相似文献   

4.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。  相似文献   

5.
对于专利价值的不确定性和影响因素的复杂性,以及评估工作中缺乏可操作性强并且科学高效的评估方法等问题,对价值评估指标体系进行分析,并使用随机森林算法选择最有效的指标集,同时基于DBSCAN(density-based spatial clustering of applications with noise)聚类选择高精度且一致性低的决策树子森林改进传统随机森林算法,使用改进前后的两种随机森林模型在专利数据样本上进行实验并比较。结果表明,改进的随机森林模型提升了传统模型的精度,在专利价值评估中具有一定的作用,总体上比较有效地反映了专利的价值度。  相似文献   

6.
为改善浮动车全球定位系统(global positioning system, GPS)数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,该模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21 d的出行轨迹数据进行插补。结果表明:所构建的模型平均误差为12.3 m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9、24.3、239.3 m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。  相似文献   

7.
为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。  相似文献   

8.
针对随机森林(RF)算法在风速预测中存在参数选择困难及预测精度低的问题,提出了基于改进果蝇优化算法(IFOA)的随机森林回归(RFR)模型.在果蝇优化算法(FOA)中引入指数函数和三角函数实现搜索步长的自适应更新,增强全局寻优和局部探索的能力.结合RFR算法对噪声和异常值具有良好容忍度的优点,利用IFOA优化RFR主要...  相似文献   

9.
针对现今传统统计方法难以准确及时的揭示经济参量时空信息且估算GDP精度不足的问题,本文利用国家极轨卫星携带的可见光和近红外成像辐射计(NPP/VIIRS)获取的2012-2018年夜间灯光影像为数据源,对数据产生的误差进行处理得到了可以用来定量分析的长时间序列数据;首先采用随机森林算法对数据集进行预测研究,在此基础上提出一种基于袋外数据估计的回归误差,采用改进的网格搜索算法(Grid Search)对随机森林模型进行参数调优。同时也使用贝叶斯优化(Bayesian Optimization)对随机森林(RF)模型进行参数调优。运用嵌套5F-CV,并通过外部5F-CV循环估算模型的泛化能力,内部5F-CV循环用于确定最佳参数找出最优参数模型,建立自动预测系统,根据输入的研究区数据,使算法模型自动进行精准预测。结果表明基于贝叶斯优化改进的随机森林算法在预测GDP时最好,预测精度达到97%,具有较高的准确率和鲁棒性。研究结果展示了机器学习算法和夜间光照指数用于在县级尺度上预测GDP表现出显著的能力。  相似文献   

10.
为了验证随机森林算法在干旱区土地利用遥感分类中的效果,本文采用随机森林算法,结合Landsat8遥感影像以及DEM、NDVI等辅助数据,解译了干旱区典型流域玛纳斯河流域的土地利用图。分析结果表明:(1)分析决策树数量(k)和分类变量数量(m)对分类精度具有很大影响。通过优化2个参数得到最优随机森林模型,当k取103、m取6时,模型分类精度可达95%;(2)通过土地利用分类精度的影响因子分析发现,海拔高程和归一化植被指数对土地利用分类的影响程度比坡向的影响更大。(3)通过分类结果对比分析发现,应用随机森林算法分类的精度比用最大似然法的分类精度高9%,利用变量重要性筛选出的遥感波段构建优化随机森林模型,能有效降低遥感数据源数据量,而Kappa系数保持在0.97不变。随机森林算法可以在干旱区土地利用分类中广泛应用。  相似文献   

11.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

12.
针对单一的分类器用于旋转机械故障诊断时存在准确率不高的问题,提出一种基于随机森林算法的旋转机械齿轮组故障诊断方法。该方法利用随机森林多分类器组合决策树的思想,通过多分类器的组合学习提高故障诊断的准确率,并在风力涡轮动力传动系统故障诊断模拟器系统上进行了多工况多故障的实验验证。首先,收集多工况、多故障的齿轮传感器信号,提取传感器信号的时域特征作为随机森林的输入特征量。然后,利用构建好的随机森林模型进行齿轮组的故障诊断,并将随机森林算法的分类结果与支持向量机方法的分类结果进行对比。通过对故障诊断结果的分析,随机森林算法避免了复杂的寻参过程和传统分类器的过拟合现象,能够处理大规模数据集,通过分类器的组合,提高了故障诊断准确率,并缩短了分类模型的预测时间,具有较好的应用前景。  相似文献   

13.
随机森林算法是一种高度灵活且易于使用的机器学习算法,目前在遥感影像分类中应用广泛。为了验证其在城市土地覆盖分类中的效果,本文对河南省洛阳市局部城区进行了土地覆盖分类实验,将Landsat 8(OLI)遥感影像的光谱波段、光谱指数和纹理特征相结合,构成多种特征组合进行随机森林算法分类比较,选择分类效果最佳方案,并与支持向量机方法进行比较。后利用随机森林算法对该组合特征变量高维数据进行降维处理,得到优化特征方案。实验结果表明:采用多源特征组合的随机森林算法的土地利用分类效果最佳,总体精度为90.54%,Kappa系数为0.890,比支持向量机方法的分类精度提高了3.1%;降维处理后的特征方案与随机森林结合在保证分类结果拥有高准确度的同时,减少了运算时间,实现了土地覆被类型信息的高效获取。表明随机森林算法在城区土地覆盖分类上有很好的适用性与稳定性。  相似文献   

14.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

15.
为了提高高速公路交通事件检测的效果,首先从交通流基本参数、交通流组合参数、不同区间交通流参数对交通事件参数的变化进行全面的分析,构建交通事件初始特征变量集,并利用AdaBoost算法、梯度提升树(GBDT)算法、随机森林(RF)算法对初始特征变量进行筛选,通过三种方法综合比较分析得出最终的重要变量.对随机森林中的决策树进行加权计算,构建加权随机森林,并利用粒子群(PSO)算法优化加权随机森林模型.通过采集的高速公路交通事件数据进行对比分析,实验结果表明,在交通事件初始特征变量中筛选出重要变量,对检测的精度有所提高,加权随机森林的检测性能也要优于传统的支持向量机(SVM)和随机森林.  相似文献   

16.
本研究以全国清香型、浓香型、中间香型烤烟为研究对象,以6个区域24个C3F中部叶为分类样本,采用随机森林分类算法进行香型分类,结果表明:随机森林算法对烤烟香型起到了很好的区分作用,分类正确率达到了87.5%;基于随机森林分类的同时得到了分类变量在香型分类中的重要性,烟叶常规化学成份在香型分类中的重要性从高到低依次为:总钾→总氮→总糖→还原糖→总氯→烟碱.因此,随机森林分类可以用于烤烟的香型分类,同时也可以用于判断分类变量对分类目标的重要性程度.  相似文献   

17.
随机森林在高光谱遥感数据中降维与分类的应用   总被引:2,自引:0,他引:2  
高光谱数据的特征数目庞大,而且波段之间存在冗余信息,对高光谱数据进行分类的成本较高,因此需要提取合适的特征达到提高效率的目的.随机森林作为一种热门算法,广泛应用于各种分类、特征选择等问题中,均取得了良好的效果.本文选择北京小汤山农业试验区的OMIS高光谱影像作为研究数据,利用随机森林算法计算每个特征的重要性指标并对其排序,针对面向精度和效率的特征选择策略,使用RF-RFE波段选择方法去除价值低的特征分别得到最佳波段组合,实现高光谱数据降维,进行随机森林、支持向量机分类.实验结果表明随机森林分类精度为72.82%,SVM分类精度为65.21%,随机森林分类器优于SVM,是一种较好的高光谱数据分类器.  相似文献   

18.
荷电状态(state-of-charge,SOC)是锂离子电池预测和健康管理非常重要的一部分。锂离子电池的SOC无法直接测量,因此本文提出了基于随机森林回归算法的锂离子电池SOC估计的方法。首先构建随机森林回归模型,使用电池电流、电池电压、电池温度作为模型的训练输入,相对应的SOC作为模型的训练输出;然后使用随机森林算法进行模型训练;最后将训练模型应用于电池SOC估计。实验结果表明,随机森林回归算法对锂离子电池荷电状态的预测最大估算误差为0.02,均方根误差为0.003 204,该方法能有效地估算锂离子电池SOC并且有很高的估计精度。该模型研究为未来电池荷电状态估算系统的模型构建提供了参考。  相似文献   

19.
在更加复杂的地质因素影响下,常规测井方法识别煤体结构准确度低,为精确识别煤体结构,研究了煤体结构测井曲线响应机理以及随机森林决策树个数的优选,从而建立煤体结构与测井曲线的随机森林分类模型进行煤体结构识别。结果表明:决策树个数为500时,随机森林分类模型效果最佳;通过袋外误差和模型对测试集样本的预测结果可知,随机森林分类模型的结果稳定且泛化性强,并且适合处理非均衡数据,预测精度较高。可见随机森林算法能有效识别煤体结构,为煤层气开发提供帮助。  相似文献   

20.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号