首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 473 毫秒
1.
特征选择在信用评估中是一种常用的数据降维技术。然而,传统的特征选择方法主要基于特征之间的线性相关性,无法有效处理非线性数据关系,导致无法准确估计变量之间的相关性程度。为了克服这个问题,该文提出了一种改进的特征选择算法,结合了随机森林和自编码器的优点。首先,利用随机森林去除与目标变量不相关的特征。然后,计算剩余特征的综合重要度,并使用这些保留的特征来训练自编码器神经网络。最后,使用自编码器的学习参数初始化一个三层神经网络,用于重构特征。在公开的信用评估数据集上进行了实验,结果表明,所提出的算法相对于其他方法表现更出色。  相似文献   

2.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

3.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

4.
针对原始蚁群算法在高光谱遥感图象分类中收敛速度慢,结果不精确的缺点,提出了一种改进的蚁群算法,并把基于改进蚁群算法的特征选择应用在高光谱遥感图象分类中,从而建立一种新的高光谱遥感图象分类模型。模型分为3部分:基于传统蚁群算法原理,提出新的蚁群算法信息素更新方法;使用改进后的蚁群算法,令蚂蚁在平面上随机选择一个随机投影到平面上的特征,在所有特征中,使用判别函数来确定哪条路径最优,随后形成特征组合;根据特征组合,使用极大似然分类器对遥感图象进行分类。实验结果表明,基于改进的蚁群算法更能有效的对高光谱遥感图象进行分类。  相似文献   

5.
为了给消费者信贷决策提供合理依据,基于真实的客户信贷数据,运用逐步Logistic回归方法依据AIC准则进行变量选择建立经典决策树、条件推断树、随机森林、支持向量机等分类模型,并对4个分类模型的预测结果进行比较.结果表明:基于逐步Logistic回归建立的随机森林分类模型准确率达97%,预测效果最优;随机森林算法具有较高的分类精度,可以很好地应用在个人信用评估问题研究中.  相似文献   

6.
基于卷积神经网络与随机森林算法的专利文本分类模型   总被引:1,自引:1,他引:0  
为解决专利文档的自动化分类,根据机械领域专利文本的特点,提出了一种基于卷积神经网络与随机森林的机械专利文本分类模型;该模型应用卷积神经网络作为有监督的文本特征提取器,结合随机森林作为分类器,面向机械领域专利文本进行专利文本分类。该模型被应用在包含96类的107 302份英文机械专利文档的数据集上。实验结果表明,该模型相比k近邻、Na6ve Bayes、随机森林等经典机器学习算法在准确率、召回率以及查全率方面均有显著提高。  相似文献   

7.
我国专利数据来源众多、指标关系复杂,针对现有专利价值评估过程依赖人为主观判断,缺乏客观、合理评估方法等问题,提出了一种基于分类回归树(classification and regression tree,CART)模型的属性选择方法,用于构建专利价值评估的指标体系.实验结果表明相较于基于随机森林的属性选择方法,该方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更好地提高专利价值评估的准确性.进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义.  相似文献   

8.
为深入挖掘驾驶人因素与交通事故之间的关系,提出一种基于SMOTENC和极端梯度提升(extreme gradient boosting, XGBoost)的驾驶人交通状态优劣分类算法。首先针对交通事故发生与否不平衡的特点,使用SMOTENC算法对数据进行上采样并在采样过程中加入随机扰动,解决了数据不平衡问题。然后使用Embedded算法结合L1正则化,通过模型评估完成对特征子集的选择。最后使用机器学习的方法将XGBoost算法用于执行数据的特征提取和分类过程。实验表明,在对驾驶人的交通状态进行综合评价的任务上,XGBoost模型的准确率为99.85%,相较于随机森林、支持向量机等对照组模型,提升了约1.12%-1.80%。除此之外,使用SMOTENC算法对数据不平衡问题进行处理后,通过混淆矩阵观察到模型对于好坏个体均具备较好的识别能力。  相似文献   

9.
提出了一种新的基于改进的伪氨基酸组成特征模型与随机森林的蛋白质相互作用预测方法。首先利用基于Geary自相关函数的伪氨基酸组成特征模型,对与蛋白质相互作用相关的氨基酸属性进行评价,然后根据评价结果选择相关的属性整合到基于Minkowski距离的伪氨基酸特征模型中,并使用随机森林作为分类器进行学习和预测,实验结果表明该方法相对于传统方法提高了正确率。
  相似文献   

10.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

11.
针对现今传统统计方法难以准确及时的揭示经济参量时空信息且估算GDP精度不足的问题,本文利用国家极轨卫星携带的可见光和近红外成像辐射计(NPP/VIIRS)获取的2012-2018年夜间灯光影像为数据源,对数据产生的误差进行处理得到了可以用来定量分析的长时间序列数据;首先采用随机森林算法对数据集进行预测研究,在此基础上提出一种基于袋外数据估计的回归误差,采用改进的网格搜索算法(Grid Search)对随机森林模型进行参数调优。同时也使用贝叶斯优化(Bayesian Optimization)对随机森林(RF)模型进行参数调优。运用嵌套5F-CV,并通过外部5F-CV循环估算模型的泛化能力,内部5F-CV循环用于确定最佳参数找出最优参数模型,建立自动预测系统,根据输入的研究区数据,使算法模型自动进行精准预测。结果表明基于贝叶斯优化改进的随机森林算法在预测GDP时最好,预测精度达到97%,具有较高的准确率和鲁棒性。研究结果展示了机器学习算法和夜间光照指数用于在县级尺度上预测GDP表现出显著的能力。  相似文献   

12.
针对传统网络安全态势感知评估过多依赖专家经验的问题,提出一种基于随机森林的多层次网络安全态势感知(Cyber Security Situational Awareness,CSSA)框架评估模型.首先将CSSA的过程与安全数据生命周期进行对齐,并分析CSSA的需求,提出CSSA多层次分析框架,然后采用随机森林算法,构建CSSA评估模型,该模型基于多个分类器组合的思想,由决策树构成,每棵树依赖于独立样本,以及森林中所有树的随机向量分布相同的值.在进行分类时,每棵树投票并返回票数最多的类,这使得网络安全态势评估更为客观和准确.实验表明,与贝叶斯网络相比,此模型可以更快速、更准确地评估当前的网络安全情况.  相似文献   

13.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

14.
模糊多级综合评判在专利资产评估中的应用   总被引:1,自引:0,他引:1  
提出一种评估专利资产价值的新方法,它克服了使用收益法时所考虑因素影响的不确定性。首先分级罗列出影响专利资产估价的主要因素,采用专家调查法对各指标体系中的影响因素赋权,得出评判矩阵;用模糊数学原理建立三级模糊综合评判模型对具体的专利资产进行分析,得出最终模糊集;再采用等级参数法确定参数价格列向量,得到专利资产的价值。最后以某公司内螺纹铜管专利技术评估为例,对其进行评估并得到合理的评估值。  相似文献   

15.
姿态估计是自然人机交互最为重要的环节,人体部件识别是姿态估计的重要步骤。本文介绍了一种基于特征预筛选的改进的随机森林的方法来识别人体各个部件。与传统的随机森林构造不同,在该方法中,对于特征空间十分庞大的实例给出了特征预筛选方法,使得每个分裂节点的特征子集更为高效。该方法既保证了树与树之间的独立,又保证了每棵树的分类性能。在树与树之间的组合中,根据人体部件构造,引入了和分层树的组合模型方式,提高了差异较小类的分类性能,进而提高了森林的准确性。  相似文献   

16.
为改善浮动车GPS数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,本模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21天的出行轨迹数据进行插补,结果表明:本文所构建的模型平均误差12.3m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9m、24.3m和239.3m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。  相似文献   

17.
地震破坏预测研究对于建筑结构减灾规划、震前风险预测、震后应急评估有着重要意义。传统的方法因为受到震害资料数量的限制以及计算精度和能力的制约,一般基于经验只考虑少数因素对结构破坏的影响。通过使用随机森林算法,设计了一个综合考虑地震动、结构和场地等多维度信息的分类方法,用以预测建筑物的地震破坏程度。本文研究框架基于新西兰国家地震委员会所收集的27次地震详细破坏资料,处理得到14.2万条高质量建筑物损失数据,考虑了谱加速度、建筑形状、层数等16个影响因素,将4种不同的损伤状态作为模型的学习标签进行地震破坏预测训练。结果表明,随机森林算法在6种分类算法中性能最佳,经过学习曲线法调参、代价敏感学习之后,经过优化得到的随机森林模型对于测试集的整体预测精确率可以达到75.4%,对4种损伤标签的召回率分别达到了88.2%、55.0%、60.7%和70.8%,远好于其他方法。当只考虑对结果影响最重要的前12个因素,该模型的预测精度仍然能够达到73.7%。可见,基于此框架所训练的预测模型具有良好的精度与适用性,同时该框架对于中国震害资料大数据库的研究具有较高的参考价值。  相似文献   

18.
【目的】探究利用地基激光雷达(terrestrial laser scanning, TLS)点云数据估测枝条生物量的可行性,构建预测长白落叶松(黄花落叶松)枝条生物量的最优模型。【方法】以利用孟家岗林场26株长白落叶松点云数据提取出的733个一级枝条的特征因子[枝长(LBL)、弦长(LBCL)、基径(dB)、着枝角度(AB)、弓高(HBAH)、枝条基部断面积(SBAB)、相对着枝深度(dRDINC)]和对应的实测数据为数据源,分别建立枝条水平上的一级枝条生物量基础模型,通过对比基础模型之间的差异来分析利用TLS数据建立枝条生物量模型的可行性。最后利用TLS数据分别对比基础模型、混合效应模型和随机森林模型的预测效果。【结果】基础模型中最终选定的自变量为SBAB和LBCL。利用TLS数据建立的枝条生物量基础模型具有更好的预测精度。对比3种模型预测能力结果显示,随机森林模型无论在训练集还是测试集...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号