首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 333 毫秒
1.
随机森林算法研究综述   总被引:1,自引:0,他引:1  
随机森林算法是一种基于决策树的集成学习算法,具有很高的预测准确率,对异常值和噪声具有很好的容忍度,而且不容易出现过拟合,在医学等领域具有广泛的应用。首先介绍了随机森林算法的原理和性质,然后综述了近几年来随机森林算法的改进研究及应用领域,最后对随机森林算法研究做出了总结。  相似文献   

2.
提出基于粗糙集和随机森林算法辅助糖尿病并发症分类。首先,运用简化的分明矩阵法对属性约简,产生新的决策信息系统;其次,采用随机森林算法对该新信息系统生成随机森林,实现分类;最后,通过糖尿病并发症临床诊断数据子集测试。实验表明该方法有效性,并优于直接用随机森林算法分类。  相似文献   

3.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

4.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

5.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

6.
决策树分类算法在数据挖掘领域是一种高效且应用普遍的分类算法.传统的决策树算法难以处理数据中存在的模糊性等不确定性信息,模糊决策树作为经典决策树在模糊集理论上的扩展,可有效克服这一缺陷.然而,现有的模糊决策树算法在处理具有层次结构的标签数据时,一般选取层次结构的某一层标签去分类数据,导致当分类准确率高时,标签不具体;标签...  相似文献   

7.
目前面向分类的差分隐私保护算法中,大部分都是基于决策树或者随机森林等树模型。若数据集中同时存在连续数据和离散数据时,算法往往会选择调用2次指数机制,并且进行隐私预算分配时往往选择平均分配。这都使得隐私预算过小、噪声过大、时间成本增加以及分类准确性降低。如何在保证数据隐私的同时尽可能地保证数据可用性,并提高算法性能,成为目前差分隐私保护技术研究的重点。提出了面向决策树和随机森林的差分隐私保护数据挖掘算法,使用Laplace机制来处理离散型特征,使用指数机制处理连续型特征,选择最佳分裂特征和分裂点,并采用最优特征选择策略和等差预算分配加噪策略。对金融数据集的测试结果表明,提出的2种基于树模型的差分隐私保护算法都能在保护数据隐私的同时,具有较高的分类准确性,并且能够充分利用隐私保护预算,节省了时间成本。  相似文献   

8.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

9.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,...  相似文献   

10.
针对现有的特征选择算法和分类算法在无线传感器网络(WSN)入侵检测系统中检测性能表现不佳、检测实时性差、模型复杂度高等问题,提出一种基于随机森林和深度森林算法的分布式WSN入侵检测模型.该模型首先对传感器节点流量数据进行预处理;然后将轻量级随机森林分类器部署到传感器节点和簇头节点,传感器节点和簇头节点合作对流量数据进行处理,并在基站上采用深度森林算法从大量流量数据中发现攻击行为;最后对WSN中的入侵行为进行实时分类入侵检测.使用无线传感器数据集WSN-DS和NSL-KDD数据集来评估所提出的模型性能.实验结果表明,该模型与现有的入侵检测模型相比,具有良好的检测性能,实时性较高,可避免模型过度拟合.  相似文献   

11.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

12.
随着计算机科学的发展,世界对计算机的依赖越来越强,计算机安全也越来越重要,恶意代码是计算机安全面临的最大敌人.针对传统的恶意代码检测和分析技术在现在已经无法满足需求的问题,提出使用机器学习并应用新的分类特征来识别恶意程序,并且对他们进行初级的家族分类,指出以往机器学习在恶意代码检测和分类上的不足,筛选出更好的区分特征.首先使用了n-gram算法来优化恶意代码反汇编代码中的操作码特征,然后使用词袋模型和TF-IDF算法优化API调用特征,最后编程实现模型并使用数据集进行了模型的训练和测试.实验中使用决策树算法的模型的分类准确率上达到了87.41%,使用随机森林算法的模型的分类准确率上达到了90.06%,实验结果表明提出的特征相比以往在恶意代码检测分类上应用的特征有着更好的效果.   相似文献   

13.
针对现有道路提取算法中难以大规模人工标注样本类别标签的问题,提出了一种基于自适应标注样本提取遥感影像道路的方法。首先通过改进的模糊C均值聚类算法提取道路区域,进行初步的样本标注;然后利用基于二次投票的集成去噪算法定位标签噪声样本,更新样本数据集;然后将更新后的样本集投入随机森林训练并预测影像的分类结果;最后对道路提取结果进行多方向形态学滤波去除非道路区域,得到精确的道路提取结果。通过不同分辨率、不同场景、不同方法的实验结果表明,本文方法可以自主选择并标注样本,相比传统算法具有较高的提取精度,对于高分辨率遥感影像中直线型、曲线型道路均有较好的道路提取效果。  相似文献   

14.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

15.
地震破坏预测研究对于建筑结构减灾规划、震前风险预测、震后应急评估有着重要意义。传统的方法因为受到震害资料数量的限制以及计算精度和能力的制约,一般基于经验只考虑少数因素对结构破坏的影响。通过使用随机森林算法,设计了一个综合考虑地震动、结构和场地等多维度信息的分类方法,用以预测建筑物的地震破坏程度。本文研究框架基于新西兰国家地震委员会所收集的27次地震详细破坏资料,处理得到14.2万条高质量建筑物损失数据,考虑了谱加速度、建筑形状、层数等16个影响因素,将4种不同的损伤状态作为模型的学习标签进行地震破坏预测训练。结果表明,随机森林算法在6种分类算法中性能最佳,经过学习曲线法调参、代价敏感学习之后,经过优化得到的随机森林模型对于测试集的整体预测精确率可以达到75.4%,对4种损伤标签的召回率分别达到了88.2%、55.0%、60.7%和70.8%,远好于其他方法。当只考虑对结果影响最重要的前12个因素,该模型的预测精度仍然能够达到73.7%。可见,基于此框架所训练的预测模型具有良好的精度与适用性,同时该框架对于中国震害资料大数据库的研究具有较高的参考价值。  相似文献   

16.
提出一种利用形态学属性剖面和单类随机森林分类的道路路域新增建筑物提取方法。用该方法计算路域范围内两时相高分辨率遥感影像的形态学属性剖面, 将得到的形态学属性剖面与光谱特征叠加, 采用改进的单类随机森林分类方法直接提取新增建筑物。以北京市稻香湖地区两时相高分辨率影像作为实验数据, 对比分析该方法与经典两时相直接分类及分类后比较方法的新增建筑物提取精度。结果表明, 综合利用形态学属性剖面和光谱特征提取得到的新增建筑物提取精度比仅使用光谱特征的提取精度显著提高, 其中Kappa系数提高15.11%。此外, 该方法提取结果的Kappa系数比两时相直接分类方法提高1.78%, 比分类后比较方法提高25.15%, 验证了所提方法的有效性。所采用的单类随机森林方法能够有效地处理高维数据, 并可以度量不同特征对分类结果的重要性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号