首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为提高滨海区域湿地信息提取的精度,以曹妃甸地区为例,通过融合主成分分析、形状、纹理、几何、水体指数、植被指数等52个特征变量,采用Relief-F算法模型优选出20个特征变量,对比分析C5.0、CART、QUEST决策树算法在滨海区域的分类精度.研究结果表明:特征优选下QUEST决策树方法的分类精度最高,总体分类精度为...  相似文献   

2.
目前面向对象的分类研究中,对于研究区影像的分割尺度问题多以试验者的多次试验以及主观推断为主,缺乏定量化的评价标准。同时,在对遥感影像分类的算法选择以及在分类过程中,有效特征空间的选取均存在一定程度的主观性。针对遥感影像面向对象分类过程中分割尺度选择盲目及分类空间构造主观性较强的问题,以World View-2遥感影像数据为例,首先利用改进的全局最优分割尺度的方法获取研究区影像的最优分割尺度,在此基础上选取了研究区分割对象的48个特征,利用OOB误分率对各个特征的重要性排序;然后按重要性顺序以5为步长讨论特征数量对分类精度的影响,构建了用于分类的最优特征空间;最后将采用最优特征空间的随机森林算法获得的最佳分类结果,与面向对象的最邻近像元、决策树以及支持向量机分类算法进行了比较。结果表明,用于分类的特征数量与分类精度之间,并不是简单的正相关关系;与面向对象的最邻近像元、决策树以及支持向量机分类算法相比,利用最优特征空间进行随机森林分类的分类精度最高,表明该方法更适合于高分辨率World View-2数据的分类。  相似文献   

3.
以长江口滨海湿地为研究区域,采用随机森林算法对滨海湿地植被进行分类。在提取Landsat?8 OLI影像植被指数和水体指数的基础上,提出利用植被指数季节差值对模型进行特征变量优化,分析了长江口滨海湿地植物群落分布的空间特征。以所占面积最大的互花米草(入侵物种)为例,采用多元线性回归模型结合实地测量数据,估算了秋季的互花米草植物密度的空间特征。提出的多时相遥感数据结合随机森林特征变量优化方法,可以较为便捷地提取长江口湿地3种优势物种的空间分布特征,与最大似然法相比,分类精度有较大提高,总体分类精度由78.35%提高至87.55%,Kappa系数由0.72提高至0.84。该方法适用于存在“异物同谱”问题的湿地植物群落研究。  相似文献   

4.
本文基于谷歌地球引擎(google earth engine, GEE)平台中2020年Sentinel-2数据和数字高程模型(digital elevation model, DEM)数据,在递归特征消除的随机森林(random forest-recursive feature elimination, RF-RFE)特征选择算法基础上结合随机森林(random forest, RF)分类算法,实现了平和县蜜柚园的空间分布制图。根据蜜柚园扩张的先验知识,使用2020年蜜柚园的提取结果对历史Landsat数据进行掩膜,依次获得1990、2000、2010年平和县蜜柚园的空间分布,在此基础上对30年以来平和县蜜柚园的变化进行分析。结果表明:基于GEE平台,使用RF-RFE特征选择后的多特征分类方法可以快速、准确地提取平和县蜜柚园的空间分布。蜜柚园的生产精度和用户精度分别为89.83%和90.59%;平和县蜜柚园面积从1990年的10.5 km2增加到2020年632 km2,增加的蜜柚园主要来源于有林地,其次为耕地和香蕉园。本研究可为平和县蜜柚...  相似文献   

5.
通过构建包含人口、水资源、技术和经济4项因素和常住总人口、人口密度、水资源总量、降雨量、万元GDP用水量、万元工业增加值用水量、第一产业生产总值、第二产业生产总值和第三产业生产总值9个元素的层次评价体系,采用熵值法和随机森林回归算法,以广东省21个地级市为例,分析广东省用水总量的影响因素.研究结果表明:(1)从元素层角...  相似文献   

6.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

7.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失,并导致精度下降的问题,提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型.该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制,利用随机森林算法对隐藏层状态的优化实现改进,从而解决了降维过程中神经网络丢失数据特征的问题.在...  相似文献   

8.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

9.
【目的】为合理布局农村居民点,推进全域乡村规划发展,科学评价农村居民点用地适宜性提供参考。【方法】选取区位条件、生产属性、自然条件、社会经济等4类20个因子,构建农村居民点用地适宜性评价指标体系,选取重庆市合川区1 000个农村居民点作为正样本,并按1∶1的比例随机选取1 000个非农村居民点作为负样本,基于随机森林算法,构建农村居民点用地适宜性评价模型,利用自然断点法将研究区内农村居民点用地适宜性等级划分为适宜、一般适宜、不适宜共3类,根据评价结果提出合川区农村居民点用地适宜性分区的优化方案。【结果】1) 验证模型的有效性,得到训练数据、测试数据、全体数据的曲线下面积值分别为0.999、0.996和0.944,模型测试集最高精度为0.991,表明模型预测准确性高且稳定;2) 评价因子中坡度、距农村道路距离和地形起伏度对农村居民点用地适宜性评价结果的影响较大;3) 适宜区位于合川区中部、北部地势平缓的丘陵盆地,建议保留发展;一般适宜区多位于西南、东南部,以及距嘉陵江、涪江1 000 m范围外,建议内部改造;不适宜区位于南部、东南部岭谷,分布于三江两侧和华蓥山支脉云雾山一带,建议搬迁撤并。【结论】利用随机森林模型进行农村居民点用地适宜性评价的精度较高,可为农村居民点管控提供参考。  相似文献   

10.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。  相似文献   

11.
为了提高山区复杂地形条件下的森林分类精度,以武夷山国家公园为研究区开展山区森林分类研究.以Sentinel-2遥感影像作为数据源,采用多尺度分割方法进行影像分割,并通过ESP2算法选取影像的最优分割尺度.首先构造了Sentinel-2光学影像的初始27维光谱特征,通过计算随机森林Gini指标对分类特征变量进行优化,最终确定17维最优特征变量,然后将提取的研究区地形特征与最优特征变量相结合,应用随机森林算法进行森林分类.结果表明:在27维光谱特征中选取重要性排名前17的特征参与分类时,精度最高值为0.911 0,其中,Sentinel-2影像的红、红边和近红外波段及其相应的光谱指数在森林分类中有较高重要性;在不同的特征参与分类时,在参考光谱特征中依次加入红边指数和地形因子,分类的总体精度分别为88.13%、89.50%、90.87%,Kappa系数分别为0.854 6、0.871 0、0.887 8.研究证明将Sentinel-2丰富的光谱特征与地形因子相结合,可有效获取各森林地物类型在不同地形特征下的不同光谱特征,此方法在森林地物信息提取中具有较高的应用价值,为今后地形复杂的山区森林进...  相似文献   

12.
针对随机森林(RF)算法在风速预测中存在参数选择困难及预测精度低的问题,提出了基于改进果蝇优化算法(IFOA)的随机森林回归(RFR)模型.在果蝇优化算法(FOA)中引入指数函数和三角函数实现搜索步长的自适应更新,增强全局寻优和局部探索的能力.结合RFR算法对噪声和异常值具有良好容忍度的优点,利用IFOA优化RFR主要...  相似文献   

13.
随机森林算法是一种高度灵活且易于使用的机器学习算法,目前在遥感影像分类中应用广泛。为了验证其在城市土地覆盖分类中的效果,本文对河南省洛阳市局部城区进行了土地覆盖分类实验,将Landsat 8(OLI)遥感影像的光谱波段、光谱指数和纹理特征相结合,构成多种特征组合进行随机森林算法分类比较,选择分类效果最佳方案,并与支持向量机方法进行比较。后利用随机森林算法对该组合特征变量高维数据进行降维处理,得到优化特征方案。实验结果表明:采用多源特征组合的随机森林算法的土地利用分类效果最佳,总体精度为90.54%,Kappa系数为0.890,比支持向量机方法的分类精度提高了3.1%;降维处理后的特征方案与随机森林结合在保证分类结果拥有高准确度的同时,减少了运算时间,实现了土地覆被类型信息的高效获取。表明随机森林算法在城区土地覆盖分类上有很好的适用性与稳定性。  相似文献   

14.
机器学习在近几年得到了迅猛的发展,其中随机森林(Random Forest)在决策树的基础上演变出来的一种机器学习方法,利用其可以进行数据建模,分类,预测等。探索了随机森林算法在数据预测上的应用,基于一个泰坦尼克乘客数据集,预测泰坦尼克号乘客的命运(是否生存)。此数据集包含了将近80%乘客的信息和生存状态,包含1 309个样本,每个样本包含14个属性。实验验证了随机森林算法在受试者工作特征曲线等方面表现较好,具有一定的参考性和可拓展性。  相似文献   

15.
采用机器学习中的随机森林算法对葡萄酒的化学特性与葡萄酒的品质之间的关系进行学习,并建立了有效的模型对葡萄酒品质进行预测。该方法具有预测准确率高、预测精度稳定以及葡萄酒分级详细等特点,在葡萄酒行业品质预测的应用中,能够有效地减少因品酒师个人因素带来的评级波动。还将实验结果与已经存在的一些工作进行量化比较,特别是在成本(风险)比较中,所提供的方法明显优于已有的方法。  相似文献   

16.
针对单一变量选择算法中模型分类精度和泛化能力较低的问题,提出一种混合变量选择算法.该算法分为两个阶段:过滤阶段,利用互信息快速排除一部分无关变量,降低样本空间的维数;封装阶段,在置换理论框架下,利用随机森林精选剩余变量.实验结果表明,该算法与对比算法相比具有更高的分类精度和泛化能力.  相似文献   

17.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

18.
随机森林在企业信用评估指标体系确定中的应用   总被引:3,自引:0,他引:3  
评估指标体系的确定是企业信用评估的一个关键环节,指标体系选取的好坏直接影响模型的预测准确率.本文引进组合学习算法的新方法随机森林(Random Forest,RF)来选择指标,使得到的指标体系更加客观,更加符合机器学习的特点.实验证明,该方法确定的指标体系能更有效地体现企业的信用状况,使用该指标体系建立的随机森林评估模型具有更高的预测准确率.  相似文献   

19.
特征选择在信用评估中是一种常用的数据降维技术。然而,传统的特征选择方法主要基于特征之间的线性相关性,无法有效处理非线性数据关系,导致无法准确估计变量之间的相关性程度。为了克服这个问题,该文提出了一种改进的特征选择算法,结合了随机森林和自编码器的优点。首先,利用随机森林去除与目标变量不相关的特征。然后,计算剩余特征的综合重要度,并使用这些保留的特征来训练自编码器神经网络。最后,使用自编码器的学习参数初始化一个三层神经网络,用于重构特征。在公开的信用评估数据集上进行了实验,结果表明,所提出的算法相对于其他方法表现更出色。  相似文献   

20.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号