首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
随机森林是一种优秀的组合分类器,但缺少较好的解释性。为了使随机森林模型更具理解性和解释性,本文提出一种基于t-SNE的可视化随机森林相似性矩阵的方法:首先运用随机森林学习出样本间的相似性度量矩阵,然后采用t-SNE方法降维,最后可视化。实验证明,该方法比MDS更有效。  相似文献   

2.
本文提出了一种新的基于遗传算法的随机森林的子森林选择方法,选择高质量的决策树加入初始种群生成子森林,以减小随机森林的规模并提高分类精度.在UCI数据集上进行的实验验证了该方法的有效性.  相似文献   

3.
学生成绩的分析预测为教学管理部门提供科学的决策依据,有助于教学质量的提高。以学生成绩为实验数据,采用随机森林算法对学生成绩进行预测,并利用Gini指数对影响学生成绩的课程的重要性进行排序。实验表明,此模型的预测准确率达到83.82%,综合预测结果和课程重要性排序,能够指导学生进行针对性的补习。  相似文献   

4.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

5.
6.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

7.
企业破产数据中存在高维不平衡的特性,会导致模型预测性能降低且预测结果偏向于多数类.为了提高具有破产风险企业的预测准确率,将从特征、数据、模型3个方面综合考虑.首先提出一种Pearson相关系数特征提取规则进行特征选择,再使用已有的平衡化技术进行数据平衡化处理,最后提出了一种基于改变分类阈值的随机森林算法构建企业破产预测模型.在包含10173个公司数据集上的实验结果表明,本文的研究方法具有一定的优越性,对后续进行企业破产预测研究也具有较高的参考价值.  相似文献   

8.
犯罪预测是犯罪预防的前提,也是公安部门亟待解决的问题.随机森林作为一种组合分类方法,具有准确率高、速度快、性能稳定的特性,且能够给出指标重要性评价,本文将其应用于犯罪风险预测中.实验证明,随机森林方法选出的指标集可以显著地提高预测准确率,基于该方法构建的预测模型相较于神经网络与支持向量机具有更高的准确性和稳定性,能够满足犯罪风险预测的需求.  相似文献   

9.
利用手指静脉造影识别人的身份已发展成为自动身份识别领域的一种重要方式,并广泛应用于多种实际场景。为了提升手指静脉图像的识别率,提出了一种基于随机森林的手指静脉识别方法。先将灰度化的手指静脉图像利用圆形等价模式LBP算子计算出编码值,然后通过子窗口直方图降维获取用于识别的特征向量,用随机森林集成分类器完成分类识别。通过实验对比分析,结果表明该方法能达到较理想的识别效果。  相似文献   

10.
11.
引入了一种能较好容忍噪声,且稳定性较高的组合分类器算法———随机森林(RF),建立企业信用评估模型;着重分析了适合RF的不平衡分类问题的处理方法,并介绍了模型参数的优化.通过与神经网络和支持向量机的对比实验,证实了该方法的有效性和优越性.  相似文献   

12.
基于随机森林的基金重仓股预测   总被引:1,自引:0,他引:1       下载免费PDF全文
首先通过对基金重仓股的财务指标和市场指标的分析,建立一套科学合理的基金重仓股指标体系;其次利用随机森林建立基金重仓股的预测模型;最后通过实验验证了方法的有效性和优越性.本研究将为投资者提供一个投资决策的优良工具.  相似文献   

13.
利用随机森林算法,基于历史地面实况观测数据,构建随机森林1~6 h风场预报模型,并用2018年的地面实况观测数据对预报模型进行检验分析.结果 表明,随机森林算法在风场预报中有较好的泛化能力,对地面10m风场有较好的预报水平,在1~6 h的预报中,预报风场与实况风场比较接近,各预报时效风速的年平均绝对误差为1.0 m/s...  相似文献   

14.
随机森林算法研究综述   总被引:1,自引:0,他引:1  
随机森林算法是一种基于决策树的集成学习算法,具有很高的预测准确率,对异常值和噪声具有很好的容忍度,而且不容易出现过拟合,在医学等领域具有广泛的应用。首先介绍了随机森林算法的原理和性质,然后综述了近几年来随机森林算法的改进研究及应用领域,最后对随机森林算法研究做出了总结。  相似文献   

15.
通过对我田学者关于技术创新劝力研究的成果发现,其研究对象未加以区分。缺乏对不同类型企业技术创新动力的分类研究。因此本文以光伏企业为例。提出光佚企业技术创新劝力要素。提升企业市场地位的目标、企业家精神、人的因素、政策的支持。并由此构建了光伏企业技术创新动力模型。在专家访谈及问豢调查的基础上使用随机森林法,分析了技术创新动力要素的权重排序、动力要素间的互动关系。研究结果表明得到企业家强烈的创新欲望,预期市场竞争力的提高,政府对光佚企业的补贴、完整的技术链的形成以及对科研人员的物质激励是光伏企业进行技术创新的最大动力。  相似文献   

16.
本文采用随机森林分类方法提取MODIS影像中的水体,根据水体和非水体在不同波段的反射率特征差异计算水体指数,选择一年内水体指数总和大于零的点构造分类特征,以全球30 m地表覆盖数据作为真值进行训练和验证.依据在随机森林中分类特征的重要性选出了10个分类特征,并通过一定量的实验统计选出有较好分类结果的随机森林模型参数.采用混淆矩阵及相关精度指标、Kappa系数等进行精度评价,获得较好的水体分类结果.  相似文献   

17.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。  相似文献   

18.
基于2003年1月—2016年5月我国A股连续2年财务亏损的上市公司样本,实证研究了随机森林模型对上市公司财务失败预警的应用。通过与逻辑斯蒂回归模型所得结果比较,证明了随机森林模型的预测精度高于逻辑斯蒂回归模型。  相似文献   

19.
基于数据挖掘技术,利用脉搏波数据构建模型进行吸毒人员的甄别技术,是一项新技术研究.对采集的脉搏波数据,在数据预处理的基础上,运用随机森林算法构建吸毒人员甄别模型,该模型准确率虽然较高,但查全率、F1值均较低.为此提出了改进的随机森林算法,主要包括3种改进策略:采用划分多组训练集和测试集进行交叉验证,运用下采样方案来平衡样本分布,选用多评判指标选定模型构建参数.通过测试,根据准确率、查准率、查全率、F1值等多项指标的比较,发现改进的随机森林判别模型性能得到明显提升.  相似文献   

20.
为给不同风险风险偏好的投资者提供决策参考,提高风险评估精度,针对股权众筹交易过程中的风险问题,采用机器学习算法构建随机森林模型,对抓取的数据进行分析.研究发现,随机森林模型分类正确率为93.75%,明显优于其他分类算法,其中分红的次数和及时与否,以及公司信誉在股权众筹风险评估中显得尤其重要.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号