首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 484 毫秒
1.
针对糖尿病数据特征维度较高,单一分类器过度拟合导致性能受限,不能较好对糖尿病进行分类识别这一问题,提出了一种深度置信网(Deep Belief Networks,DBN)融合梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的糖尿病检测算法(DBN-GBDT).该算法利用DBN对海量数据的特征提取和拟合复杂模型的能力,GBDT算法具有很强的泛化能力,将DBN用于特征提取和特征降维,GBDT方法用于分类.将提出的算法用于糖尿病数据分类识别,并与DBN、GBDT、SVM和随机森林四种经典方法进行对比.实验结果表明,该算法分类精度较高,稳定性更强,为糖尿病检测提供了新的方法.  相似文献   

2.
随机森林算法是一种高度灵活且易于使用的机器学习算法,目前在遥感影像分类中应用广泛。为了验证其在城市土地覆盖分类中的效果,本文对河南省洛阳市局部城区进行了土地覆盖分类实验,将Landsat 8(OLI)遥感影像的光谱波段、光谱指数和纹理特征相结合,构成多种特征组合进行随机森林算法分类比较,选择分类效果最佳方案,并与支持向量机方法进行比较。后利用随机森林算法对该组合特征变量高维数据进行降维处理,得到优化特征方案。实验结果表明:采用多源特征组合的随机森林算法的土地利用分类效果最佳,总体精度为90.54%,Kappa系数为0.890,比支持向量机方法的分类精度提高了3.1%;降维处理后的特征方案与随机森林结合在保证分类结果拥有高准确度的同时,减少了运算时间,实现了土地覆被类型信息的高效获取。表明随机森林算法在城区土地覆盖分类上有很好的适用性与稳定性。  相似文献   

3.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

4.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类。可以将代价敏感用于分类器的训练;但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数;并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好地处理不平衡数据。  相似文献   

5.
采用国家人口与健康科学数据共享平台临床医学科学数据中心提供的3 000例糖尿病并发症数据作为数据集,对糖尿病联合并发症发病风险进行计算与预测.通过关联规则查找高风险联合并发症并计算各联合并发症的关联发病率,采用随机森林算法建立高风险联合并发症发病预测模型,并查找其关键影响因素.研究结果表明:部分联合并发症关联发病率超过90%;在筛选出的12组高风险联合并发症中,高血压、动脉粥样硬化、视网膜病变、冠心病、肾病等是常见并发症;不同的联合并发症中关键影响因素(生化指标)各不相同;各联合并发症十折交叉验证法的分类平均精度均在0.800 0以上,曲线下面积(AUC)值均大于0.67.  相似文献   

6.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

7.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

8.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

9.
乔瀚  容芷君  许莹  但斌斌  赵慧 《科学技术与工程》2021,21(36):15497-15502
考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明该方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。  相似文献   

10.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

11.
以湖北洪湖湿地自然保护区为研究区,采用随机森林算法对研究区内湿地信息提取.以Sentinel-2A遥感影像为数据源提取光谱特征、植被指数、水体指数、红边指数、纹理特征等特征变量,在随机森林算法框架下,对不同特征变量进行特征重要性评估,比较分类后精度并对特征组合进行优选.将基于随机森林算法的分类精度与传统的基于像元的支持向量机分类方法和最大似然分类方法的分类精度相比较,并通过双比例Z检验比较各算法中正确分类像元的比例统计各分类算法之间的分布差异.结果表明: 1) 特征个数为13时,分类精度达到最大,随着特征个数的增多,分类精度呈现波动减小的趋势; 2) 特征变量中蓝光波段重要性得分最高,达到2.85,可见光(B2、B3)与红边指数(IRECI、MCARI)重要性排名靠前,对于提取湖泊湿地信息具有重要意义; 3) 基于特征优选的随机森林方法分类精度优于支持向量机和最大似然法分类后的精度,其总体精度分别高出6.02%和7.57%;经检验, χ2分别达到25.891和38.895,具有显著差异,表明基于特征优选的随机森林算法分类对湿地信息提取发挥重要作用。  相似文献   

12.
针对机载全波形数据,本文提出了一种基于随机森林法的点云分类算法,首先通过全波形分解获得振幅,回波次数,以及回波宽度3个特征,再结合本文中提出的特征提取方法,构建一个多维特征向量并进行特征选择,最后利用随机森林法将激光点云分为植被,地面部分以及建筑物三类.对比支持向量机分类方法,实验证明该方法具有很好的稳定性以及高效性,能够在城市区域取得很好的分类精度.  相似文献   

13.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

14.
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.  相似文献   

15.
目前面向对象的分类研究中,对于研究区影像的分割尺度问题多以试验者的多次试验以及主观推断为主,缺乏定量化的评价标准。同时,在对遥感影像分类的算法选择以及在分类过程中,有效特征空间的选取均存在一定程度的主观性。针对遥感影像面向对象分类过程中分割尺度选择盲目及分类空间构造主观性较强的问题,以World View-2遥感影像数据为例,首先利用改进的全局最优分割尺度的方法获取研究区影像的最优分割尺度,在此基础上选取了研究区分割对象的48个特征,利用OOB误分率对各个特征的重要性排序;然后按重要性顺序以5为步长讨论特征数量对分类精度的影响,构建了用于分类的最优特征空间;最后将采用最优特征空间的随机森林算法获得的最佳分类结果,与面向对象的最邻近像元、决策树以及支持向量机分类算法进行了比较。结果表明,用于分类的特征数量与分类精度之间,并不是简单的正相关关系;与面向对象的最邻近像元、决策树以及支持向量机分类算法相比,利用最优特征空间进行随机森林分类的分类精度最高,表明该方法更适合于高分辨率World View-2数据的分类。  相似文献   

16.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

17.
利用便携式地物光谱仪SVC HR-1024对92个烟煤和58个褐煤样本进行光谱测试,烟煤和褐煤在可见光-近红外波段光谱特征差异明显,褐煤的光谱反射率及其斜率均明显高于烟煤.在光谱特征分析的基础上,利用MAO模型法、随机森林法、BP神经网络法和ELM算法进行煤种分类.结果表明:MAO模型法和随机森林法的分类结果较优.若进行大面积、快速遥感识别时,对分类时间要求较高,应选择MAO模型法;若是小面积单一矿区分类,对分类准确率要求较高,选择随机森林法较为恰当.  相似文献   

18.
针对TLD算法中采用的随机森林分类器的决策树阈值固定,不能根据目标特征随时调整,影响分类精度和时间开销的问题,引入极端随机森林的思想,提出了基于改进的随机森林TLD目标跟踪方法。该方法用Gini系数度量样本集合的混乱程度,通过比较Gini系数是否超过了给定阈值,判断叶节点何时转变成决策节点进行分裂;再结合TLD算法中的P-N学习框架和在线模型训练更新样本;最终基于改进的TLD算法完成目标跟踪。将本文方法应用于多个视频集进行目标跟踪实验,验证了算法的有效性和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号