首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
针对糖尿病数据特征维度较高,单一分类器过度拟合导致性能受限,不能较好对糖尿病进行分类识别这一问题,提出了一种深度置信网(Deep Belief Networks,DBN)融合梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的糖尿病检测算法(DBN-GBDT).该算法利用DBN对海量数据的特征提取和拟合复杂模型的能力,GBDT算法具有很强的泛化能力,将DBN用于特征提取和特征降维,GBDT方法用于分类.将提出的算法用于糖尿病数据分类识别,并与DBN、GBDT、SVM和随机森林四种经典方法进行对比.实验结果表明,该算法分类精度较高,稳定性更强,为糖尿病检测提供了新的方法.  相似文献   

2.
随机森林算法是一种高度灵活且易于使用的机器学习算法,目前在遥感影像分类中应用广泛。为了验证其在城市土地覆盖分类中的效果,本文对河南省洛阳市局部城区进行了土地覆盖分类实验,将Landsat 8(OLI)遥感影像的光谱波段、光谱指数和纹理特征相结合,构成多种特征组合进行随机森林算法分类比较,选择分类效果最佳方案,并与支持向量机方法进行比较。后利用随机森林算法对该组合特征变量高维数据进行降维处理,得到优化特征方案。实验结果表明:采用多源特征组合的随机森林算法的土地利用分类效果最佳,总体精度为90.54%,Kappa系数为0.890,比支持向量机方法的分类精度提高了3.1%;降维处理后的特征方案与随机森林结合在保证分类结果拥有高准确度的同时,减少了运算时间,实现了土地覆被类型信息的高效获取。表明随机森林算法在城区土地覆盖分类上有很好的适用性与稳定性。  相似文献   

3.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

4.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类。可以将代价敏感用于分类器的训练;但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数;并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好地处理不平衡数据。  相似文献   

5.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

6.
采用国家人口与健康科学数据共享平台临床医学科学数据中心提供的3 000例糖尿病并发症数据作为数据集,对糖尿病联合并发症发病风险进行计算与预测.通过关联规则查找高风险联合并发症并计算各联合并发症的关联发病率,采用随机森林算法建立高风险联合并发症发病预测模型,并查找其关键影响因素.研究结果表明:部分联合并发症关联发病率超过90%;在筛选出的12组高风险联合并发症中,高血压、动脉粥样硬化、视网膜病变、冠心病、肾病等是常见并发症;不同的联合并发症中关键影响因素(生化指标)各不相同;各联合并发症十折交叉验证法的分类平均精度均在0.800 0以上,曲线下面积(AUC)值均大于0.67.  相似文献   

7.
乔瀚  容芷君  许莹  但斌斌  赵慧 《科学技术与工程》2021,21(36):15497-15502
考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明该方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。  相似文献   

8.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

9.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

10.
针对现有的特征选择算法和分类算法在无线传感器网络(WSN)入侵检测系统中检测性能表现不佳、检测实时性差、模型复杂度高等问题,提出一种基于随机森林和深度森林算法的分布式WSN入侵检测模型.该模型首先对传感器节点流量数据进行预处理;然后将轻量级随机森林分类器部署到传感器节点和簇头节点,传感器节点和簇头节点合作对流量数据进行处理,并在基站上采用深度森林算法从大量流量数据中发现攻击行为;最后对WSN中的入侵行为进行实时分类入侵检测.使用无线传感器数据集WSN-DS和NSL-KDD数据集来评估所提出的模型性能.实验结果表明,该模型与现有的入侵检测模型相比,具有良好的检测性能,实时性较高,可避免模型过度拟合.  相似文献   

11.
本研究以全国清香型、浓香型、中间香型烤烟为研究对象,以6个区域24个C3F中部叶为分类样本,采用随机森林分类算法进行香型分类,结果表明:随机森林算法对烤烟香型起到了很好的区分作用,分类正确率达到了87.5%;基于随机森林分类的同时得到了分类变量在香型分类中的重要性,烟叶常规化学成份在香型分类中的重要性从高到低依次为:总钾→总氮→总糖→还原糖→总氯→烟碱.因此,随机森林分类可以用于烤烟的香型分类,同时也可以用于判断分类变量对分类目标的重要性程度.  相似文献   

12.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

13.
为准确预测东部某油田机械钻速,在针对该油田某井机械钻速影响因素分析的基础上,根据现场经验对不同直径PDC钻头的机械钻速进行分级,运用随机森林算法、K近邻算法、支持向量机算法建立机械钻速分类预测模型,并运用遗传算法优化模型参数,得到了满足施工设计及现场作业需要的机械钻速分类预测方法。结果表明,运用遗传算法优化后的随机森林模型预测机械钻速分类准确率为82.1%,明显高于K近邻算法和支持向量机算法,该方法可指导该区块钻井施工参数优化,以提高钻井施工效益。  相似文献   

14.
以湖北洪湖湿地自然保护区为研究区,采用随机森林算法对研究区内湿地信息提取.以Sentinel-2A遥感影像为数据源提取光谱特征、植被指数、水体指数、红边指数、纹理特征等特征变量,在随机森林算法框架下,对不同特征变量进行特征重要性评估,比较分类后精度并对特征组合进行优选.将基于随机森林算法的分类精度与传统的基于像元的支持向量机分类方法和最大似然分类方法的分类精度相比较,并通过双比例Z检验比较各算法中正确分类像元的比例统计各分类算法之间的分布差异.结果表明: 1) 特征个数为13时,分类精度达到最大,随着特征个数的增多,分类精度呈现波动减小的趋势; 2) 特征变量中蓝光波段重要性得分最高,达到2.85,可见光(B2、B3)与红边指数(IRECI、MCARI)重要性排名靠前,对于提取湖泊湿地信息具有重要意义; 3) 基于特征优选的随机森林方法分类精度优于支持向量机和最大似然法分类后的精度,其总体精度分别高出6.02%和7.57%;经检验, χ2分别达到25.891和38.895,具有显著差异,表明基于特征优选的随机森林算法分类对湿地信息提取发挥重要作用。  相似文献   

15.
为了验证随机森林算法在干旱区土地利用遥感分类中的效果,本文采用随机森林算法,结合Landsat8遥感影像以及DEM、NDVI等辅助数据,解译了干旱区典型流域玛纳斯河流域的土地利用图。分析结果表明:(1)分析决策树数量(k)和分类变量数量(m)对分类精度具有很大影响。通过优化2个参数得到最优随机森林模型,当k取103、m取6时,模型分类精度可达95%;(2)通过土地利用分类精度的影响因子分析发现,海拔高程和归一化植被指数对土地利用分类的影响程度比坡向的影响更大。(3)通过分类结果对比分析发现,应用随机森林算法分类的精度比用最大似然法的分类精度高9%,利用变量重要性筛选出的遥感波段构建优化随机森林模型,能有效降低遥感数据源数据量,而Kappa系数保持在0.97不变。随机森林算法可以在干旱区土地利用分类中广泛应用。  相似文献   

16.
基于卷积神经网络与随机森林算法的专利文本分类模型   总被引:1,自引:1,他引:0  
为解决专利文档的自动化分类,根据机械领域专利文本的特点,提出了一种基于卷积神经网络与随机森林的机械专利文本分类模型;该模型应用卷积神经网络作为有监督的文本特征提取器,结合随机森林作为分类器,面向机械领域专利文本进行专利文本分类。该模型被应用在包含96类的107 302份英文机械专利文档的数据集上。实验结果表明,该模型相比k近邻、Na6ve Bayes、随机森林等经典机器学习算法在准确率、召回率以及查全率方面均有显著提高。  相似文献   

17.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,...  相似文献   

18.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

19.
针对单一变量选择算法中模型分类精度和泛化能力较低的问题,提出一种混合变量选择算法.该算法分为两个阶段:过滤阶段,利用互信息快速排除一部分无关变量,降低样本空间的维数;封装阶段,在置换理论框架下,利用随机森林精选剩余变量.实验结果表明,该算法与对比算法相比具有更高的分类精度和泛化能力.  相似文献   

20.
大多数机器学习算法能得到较好的分类效果,但模型却无法解释;而随机森林等模型有良好的可解释性,却无法处理中医数据中兼证的情况。本文利用极值随机森林算法对慢性胃炎中医数据进行证候分类研究,其中决策树的叶节点能输出多个标签,通过加权机制综合分量来处理兼证问题。与已有多标记学习算法和C4.5、CART等基于决策树的算法进行比较,实验结果表明,极值随机森林算法无论在6个证型的分类准确率上,还是在多标记评价指标上都具有更好的效果,而且模型中得到的规则基本符合中医理论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号