首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
为了给消费者信贷决策提供合理依据,基于真实的客户信贷数据,运用逐步Logistic回归方法依据AIC准则进行变量选择建立经典决策树、条件推断树、随机森林、支持向量机等分类模型,并对4个分类模型的预测结果进行比较.结果表明:基于逐步Logistic回归建立的随机森林分类模型准确率达97%,预测效果最优;随机森林算法具有较高的分类精度,可以很好地应用在个人信用评估问题研究中.  相似文献   

2.
为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率、精确率、F1分数和AUC等指标分别为95.67%、97.17%、95.56%和97.96%,均优于Logistic回归、支持向量机、随机森林、XGBoost算法和基于网格搜索的XGBoost算法;基于CS-XGBoost的房价预测模型的决定系数、均方根误差及平均绝对误差分别为0.905 5、2.943 5及2.165 4,预测精度较XGBoost算法得到显著提升。  相似文献   

3.
集成f_classif、随机森林、Lasso、XGBoost四种方法构建特征选择评分模型并筛选出关键特征,利用RUSboost欠采样处理非平衡数据,在此数据预处理基础上分别建立支持向量机预测模型(SVM)和逻辑回归预测模型(Logistic)并进行对比分析,考察这两种机器学习方法对中小企业财务困境预测效果。结果显示,在支持向量机预测模型训练中选择径向基核函数且调整c值为1.06时其测试集上的判断准确率显著高于逻辑回归预测模型,对中小企业逐步恶化的财务状况预测准确率达98%。这对金融企业精准评价中小企业的财务风险以及政府实施中小企业政策扶持提供决策参考。  相似文献   

4.
为兼顾钓鱼网站检测的速度和准确率,提出一种基于Logistic回归和XGBoost的钓鱼网站检测方法.根据网页的URL提取HTML特征、URL特征和基于TF-IDF的文本向量特征,结合Logistic回归将高维和稀疏的文本特征转换为概率特征.基于以上融合特征,构建了XGBoost分类模型,给出了方法的时间复杂度分析,采集了真实数据作为实验数据集.实验结果表明,Logistic回归方法降低了融合特征的维度,检测速度优于直接融合方法;融合特征方法比单方面特征方法含有更多有效的信息,可供分类器进行学习,检测精度高于单方面特征方法,精确度达到96.67%,召回率为96.6%.  相似文献   

5.
针对支持向量机模型在分类问题中的广泛应用,提出了一种新的基于支持向量机的个人信用评估模型,通过对支持向量机直方图交叉核、热核特征核、杰卡德距离核和余弦广义距离核4种核函数的组合处理,构造了投票矩阵;通过实际数据实验,获得了良好的分类结果,同时证明了支持向量机自适应组合核加权模型在信用评分系统中具有良好的性能;因此,这种基于支持向量机的个人信用评估模型可以帮助银行或贷款人做出正确的决策。  相似文献   

6.
为了更加精准地预测二手房价格,该文以2019年深圳市二手房的真实交易数据为研究对象,利用线性回归模型、随机森林模型和XGBoost模型并加以POI计算来预测二手房价格.首先,对数据集进行清洗并可视化展示.其次,运用百度地图进行POI处理扩充数据集,使得数据集接近现实情况.接着,按照数据特征对房价影响的重要程度进行了排序,选取重要的特征来训练模型.最后,通过数值结果分析,XGBoost模型对二手房的房价评估效果最好,尤其是经过POI处理的数据集和XGBoost模型的这种组合,对于深圳市的二手房价格具有极好的预测效果.  相似文献   

7.
针对个人信用评估中数据海量性以及与影响因素之间的非线性问题,利用最小二乘支持向量机(LS-SVM)中基于GCV准则和Newton-Raphson算法的正则化参数快速选择方法建立新的个人信用风险预测模型.并把该模型与Fisher线性判别分析、Logistic回归以及半参数广义可加模型的判别效果进行了实证比较分析.结果表明该方法不仅具有快速高效的模型选择能力,并且具有较优的判别预测能力.  相似文献   

8.
随着市场经济的迅猛发展,各国的债券市场也相继成长,并趋向于多元化发展.然而,在这一发展过程中,中国的债券违约事件屡见不鲜且愈演愈烈,极大地阻碍了市场活力.以发行企业债券、公司债券、短期融资债券以及中期债券的公司为研究主体,提出LR RF XGBoost债券违约预警模型,该模型基于软投票法将逻辑回归(Logistic Regression)、随机森林(Random Forest)、极端梯度提升算法(Extreme Gradient Boosting)相融合,对样本的财务指标及非财务指标数据进行研究.研究结果发现:LR RF XGBoost融合模型相比于其他单一预警模型泛化能力更强,准确率高达95.3%.该方法有利于为投资者以及债券市场监督部门提供可靠的预测信息,帮助企业及早识别风险,为债券市场的健康发展提供保障.  相似文献   

9.
针对传统支持向量回归机在机制上难以直接对时变信号进行处理的问题, 提出了一种用于时间序列预测 的过程支持向量回归模型, 采用涡流搜索算法优化选择模型参数, 采用 UCI(University of California Irvine)数据 库的空气质量数据集和比利时 SIDC(Solar Influences Data Analysis Center)的太阳黑子数据进行仿真实验。 实验 结果表明, 该模型预测结果均优于粒子群过程支持向量回归机和支持向量回归机的预测结果, 具有较好的预测 能力。  相似文献   

10.
提出一种基于遗传算法优化支持向量回归机的模型进行网格负载预测,使用遗传算法和交叉验证技术解决了支持向量回归机参数难以确定的问题.标准数据集仿真实验结果表明,该模型与试验法定参的支持向量回归机和BP神经网络相比具有更优的预测性能.  相似文献   

11.
三种机器学习模型在太湖藻华面积预测中的应用   总被引:1,自引:0,他引:1  
基于2014—2018年太湖气象水文水质数据与卫星遥感数据,分别采用支持向量机(SVM)、长短记忆神经网络(LSTM)、极端梯度提升树(XGBoost)模型模拟全太湖、贡湖、南部沿岸区、中西北湖区的蓝藻水华(简称藻华)面积。结果表明:(a)XGBoost全太湖与分区藻华面积回归模型模拟效果较好,其次是SVM、LSTM回归模型;不同时间尺度下SVM、XGBoost回归模型对全太湖藻华面积模拟结果偏小,但有效模拟了藻华的发展趋势。(b)XGBoost分类模型在全太湖、中西北湖区模拟准确率较高,优于SVM、LSTM分类模型;在贡湖、南部沿岸区,3种分类模型准确率均较高。(c)以当天、提前1 d的气象水文水质因子作为全太湖与分区藻华面积模型输入,XGBoost回归与分类模型模拟精度较高、稳健性较好,预测应用情景较好。  相似文献   

12.
针对供应链金融领域中小企业融资的信用风险控制问题,提出了一种在Bagging算法框架下结合贝叶斯优化和XGBoost算法的集成学习模型BO-XGBoost-Bagging(BXB)。首先,基于XGBoost特征重要度进行特征筛选,建立供应链金融信用评价指标体系。其次,通过贝叶斯优化获得XGBoost的最优超参数,并结合Bagging算法得到集成模型BXB。最后,在中小企业数据集上进行预测,通过实证研究验证信用评价模型的有效性。实证结果表明,BXB模型相比其他模型具有更好的预测效果,能够更加准确、全面地对中小企业的信用风险进行评估,更好地区分风险企业和正常企业,最大程度减少违约损失,在供应链金融信用评价方面有着较高的应用价值。  相似文献   

13.
针对客户信用数据款项维度多、数量大、复杂性等问题,提出了一种基于相似性度量的多视角决策融合个人信用评估方法。该方法创新点在于能够细致地考虑不同信用数据的几何形状,多角度划分数据,并进行相似性匹配,此外充分运用随机森林能够进行特征提取的自洽性使得模型的准确性与稳健性同步得到了提高。在UCI数据集上的实验结果表明: 3种距离测度在进行特征提取与异常值去除后,性能均得到了大幅提升,且识别率的波动区间相对于数据预处理前显著缩小,展现了优化后的模型具有更强的稳健性;融合3种测度的决策可以多角度地综合信用信息,使得识别性能较单一测度显著优化,且与其他经典组合方法 比较性能更佳;将随机森林与距离测度相组合应用于个人信用评估领域为个人信用评估方法的多样性增添了新的经验。  相似文献   

14.
用户信用卡违约预测任务有助于银行等金融机构平衡经济风险与经济利益,对于银行信用卡业务的风险管控具有重要作用。针对用户信用卡违约预测问题,提出了一种基于集成学习的预测模型,有异于传统集成学习中的弱学习器。该模型采用集成模型和神经网络模型作为基学习器,从而提升模型整体的预测效果。首先通过预处理提取用户信用卡数据集的相关特征,然后分别采用优化后的决策树、随机森林、GBDT、XGBoost、CatBoost和SPE六种机器学习模型与神经网络模型进行并行训练和预测,最后通过加权软投票法集成基学习器结果并输出最终预测结果。结果表明,相对于基学习器,该模型在各项评估指标上均有所提升,且拥有更好的模型泛化能力。  相似文献   

15.
采用SVM的序列最小最优化算法(SMO)作为训练算法对商业银行个人房贷信用评估数据进行分析,着重探讨了在个人房贷信用评估中分别应用径向基核函数参数和SMO训练算法中的参数调整对准确度的影响;通过银行实际数据集将该算法与C4.5和神经网络进行了比较,支持向量机对个人信用评估的总精度高于其他两种算法;支持向量机对实际的住房抵押贷款数据进行信用评估效果较好,且参数调整对试验结果有影响。  相似文献   

16.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

17.
结合P2P网贷平台的特点,融合Logistic回归和Tabnet模型,提出一种P2P网贷违约预测方法。采集人人贷平台借贷数据,并对数据进行清洗与加工预处理;通过信息价值法和相关性分析,对众多解释变量进行筛选,以借款状态作为因变量,采用Tabnet神经网络进行训练,根据训练得到的特征重要性选择关键的解释变量;将Tabnet神经网络预测结果作为新的训练数据集,构建Logistic回归模型;将人人贷数据集输入Logistic回归学习与训练,以训练好的Logistic回归用于网贷违约预测。实验结果表明,Tabnet模型的网贷违约平均预测准确率和精确率分别为9958%、9547%,Logistic回归的平均准确率和精确率分别为9872%、9221%,而融合模型的平均准确率和精确率分别为9960%、9672%;在3个测试集上的准确率标准差分别为0001 4、0000 6、0000 5,精确率标准差分别为0034 4、0013 3、0013 2。表明融合Logistic回归与Tabnet的网贷违约预测方法具有Logistic回归模型的可解释性与稳定性,可提高单一模型的预测精确度。  相似文献   

18.
【目的】比较分析XGBoost模型、LightGBM模型、随机森林模型(RF)、K最近邻模型(KNN)、长短期记忆神经网络(LSTM)、决策树模型(DT)共6个PM2.5浓度预测模型,以准确、及时预测环境PM2.5浓度。【方法】基于重庆市合川区2020年全年空气质量监测数据和气象数据,通过最大相关最小冗余算法(MRMR)进行数据降维选择最优特征子集,作为模型的输入,逐一进行PM2.5浓度预测;考虑到不同季节PM2.5浓度差异较大,故分季节预测了PM2.5浓度;为了探究各模型预测性能,计算了各模型运行时间和内存占用,并基于PM2.5与特征变量的相关性和特征变量的重要性探讨了模型预测性能季节性差异原因。【结果】模型总体预测精度从高到低排序为 XGBoost、RF、LightGBM、LSTM、KNN、DT模型;预测性能方面,6个模型均表现为秋冬季节预测精度高于春夏季节;LightGBM模型可在保证模型精度的情况下,大幅减少模型训练时间和内存占用;特征重要性显示PM10浓度、气温和气压的重要性高,O3浓度、风向和NO2浓度重要性相对较弱。【结论】采取MRMR方法进行数据降维选取的最优特征子集能较好地预测PM2.5浓度;相比较而言,XGBoost、RF、LightGBM、LSTM模型在PM2.5浓度预测上具有较优性能,其中综合性能较好的为LightGBM模型。  相似文献   

19.
为破除XGBoost模型的黑盒特性,增强模型的说服性,提出一种基于SHAP的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号