首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对现有乳腺癌预测模型虽然准确率较高,但是存在过拟合现象且在用于计算机辅助诊断(Computer Aided Diagnosis,CAD)过程中不能很好的降低漏诊率和误诊率的问题,提出了一种基于XGBoost算法构建的乳腺癌预测模型。在实验中采用细针穿刺细胞病理学检查所获得的检验数据进行实验并对比基于XGBoost的乳腺癌预测模型与已有预测模型的预测准确率,结果显示,基于XGBoost算法的乳腺癌预测模型预测准确率达到了97.86%,ROC曲线下方面积(AUC)的大小达到了99.59%,该模型的准确率优于已有乳腺癌预测模型的准确率,且获得了较高的AUC值,通过基于XGBoost的乳腺癌预测模型可以进一步优化乳腺癌的诊断技术。  相似文献   

2.
列控车载设备的健康管理和故障预测是实现高速铁路关键装备智能化视情维护的重要途径.为了克服列控车载设备故障建模的复杂性和健康监测手段受限等问题,充分运用现场收集的设备运行记录数据,提出一种基于数据驱动的列控车载设备故障预测体系框架.建立了高速列车列控车载设备运行数据管理平台,基于大量历史现场数据构建训练及测试样本集,运用极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法实施特定故障类型的模型训练与学习,并将所得故障模型用于故障概率的预测分析.以CTCS2-200H型列控车载设备为对象,运用实际数据对所提出的故障建模方法进行了验证,对不同建模样本规模、故障类型维度下的模型性能以及不同建模算法性能进行了对比.结果表明:基于XGBoost算法的建模方法能够有效揭示各特征量与故障之间的关联,所采用树的深度值越高,迭代收敛速度越快;相较于GBDT、RF算法,基于XGBoost的建模方法能够实现更高的预测正确率,在给定样本条件下达到稳定正确率所需训练时间分别减少了78.55%、12.47%,验证了该方法在大规模数据条件下的适用性和性能优势.  相似文献   

3.
为实现新零售优惠券的定向投放,提出了对用户优惠券使用行为预测的模型.该文采用XGBoost算法,突破了以TAM模型(技术接受模型)为基础解释个人优惠券使用意愿的传统方法,并基于口碑网的真实交易数据进行了特征提取和用户使用行为建模.在K折交叉验证之后通过变量重要性评分,确定了对消费者使用决策贡献度较高的特征,并与随机森林和GBDT(梯度提升决策树)算法进行了AUC(Area under curve)准确率的对比.该研究证明了基于XGBoost的集成学习算法在优惠券使用行为预测中的有效性,对新零售精准营销有重要的现实意义.  相似文献   

4.
为解决低压供电线路参数精准量测困难的问题,提出一种基于相模变换的低压供电线路阻抗智能量测方法,该方法利用智能电能表采集线路各节点数据,通过Karrenbauer(卡伦鲍厄)相模变换对各相数据进行解耦,并依据线路之间的潮流关系建立最小二乘优化模型对阻抗参数进行寻优,实现精准量测.最后通过实际算例验证了该方法有效可行,实现了对不同工况下低压供电线路阻抗参数的在线辨识,为供电线路运行状态评估提供了依据.  相似文献   

5.
针对供应链金融领域中小企业融资的信用风险控制问题,提出了一种在Bagging算法框架下结合贝叶斯优化和XGBoost算法的集成学习模型BO-XGBoost-Bagging(BXB)。首先,基于XGBoost特征重要度进行特征筛选,建立供应链金融信用评价指标体系。其次,通过贝叶斯优化获得XGBoost的最优超参数,并结合Bagging算法得到集成模型BXB。最后,在中小企业数据集上进行预测,通过实证研究验证信用评价模型的有效性。实证结果表明,BXB模型相比其他模型具有更好的预测效果,能够更加准确、全面地对中小企业的信用风险进行评估,更好地区分风险企业和正常企业,最大程度减少违约损失,在供应链金融信用评价方面有着较高的应用价值。  相似文献   

6.
建立地质灾害易发性评价模型并开展易发性评价,对提高区域地质灾害预报预警效率和精度有重要意义.然而,如何建立既切合区域实际、又具有推广适用价值的地质灾害易发性评价模型是制约地质灾害预报预警的关键科学问题.以云南省南华县2015年地质灾害详查数据为基础,选择地形、地貌等11个因子,基于均值法,采取梯度提升树算法(XGBoost、LightGBM、CatBoost)、信息量模型与地理加权回归模型开展了地质灾害易发性评价研究.结果表明:(1)地理加权回归模型预测结果存在过拟合现象,信息量模型则存在欠拟合现象;(2)均值法效果最好,AUC(Area Under Curve)值为0.933 7,精度较地理加权回归模型、XGBoost、LightGBM、CatBoost、信息量模型分别提高了1.7%、1.8%、2.0%、3.8%、4.0%;(3)Catboost对正样本的预测效果最差,但是对负样本的预测效果最好,而XGBoost对正样本的预测效果最好,对负样本的预测效果很差,基于3种梯度算法的均值法则对正负样本的预测精度有了明显提高;(4)南华县地质灾害主要诱因有道路修建、断层活动、降雨冲刷、河流侵...  相似文献   

7.
随着市场经济的迅猛发展,各国的债券市场也相继成长,并趋向于多元化发展.然而,在这一发展过程中,中国的债券违约事件屡见不鲜且愈演愈烈,极大地阻碍了市场活力.以发行企业债券、公司债券、短期融资债券以及中期债券的公司为研究主体,提出LR RF XGBoost债券违约预警模型,该模型基于软投票法将逻辑回归(Logistic Regression)、随机森林(Random Forest)、极端梯度提升算法(Extreme Gradient Boosting)相融合,对样本的财务指标及非财务指标数据进行研究.研究结果发现:LR RF XGBoost融合模型相比于其他单一预警模型泛化能力更强,准确率高达95.3%.该方法有利于为投资者以及债券市场监督部门提供可靠的预测信息,帮助企业及早识别风险,为债券市场的健康发展提供保障.  相似文献   

8.
糖尿病已经成为威胁人类健康的慢性病之一.实现对糖尿病的早期预测,有助于辅助医疗决策.针对糖尿病数据普遍存在的维度过高,缺失值较多等特点,为了提高预测精度,从集成学习入手,提出一种基于XGBoost算法的糖尿病预测模型.该模型以CART回归树作为基学习器,利用收集到的真实数据对模型进行训练和测试,并调整XGBoost的主要参数,最终实现了血糖值的回归预测.实验结果表明,该模型平均绝对百分比误差下降到8.57%,比本文对比的基于SVM、随机森林的预测模型精度更高,且运行速度快,稳定性强.  相似文献   

9.
以黄河未控区径流预测为研究目标,利用伊洛河、沁河流域降雨、植被覆盖、土地利用、社会经济数据,结合数据特征提取和关联分析方法,实现对结构化和非结构化要素数据的筛选、清洗、插补、格式转换等数据预处理及初步分析.基于集成学习中的极端梯度提升树(XGBoost)算法设计并构建了大数据驱动的黄河未控区径流智能预测模型.并以2003年洪水过程作为验证数据,与传统水文模型HBV模型进行效果比较.为黄河流域干支流未控区径流预报提供借鉴和参考.  相似文献   

10.
针对探地雷达(GPR)数据解译依赖于人工经验,存在费时费力和主观偏差的问题,提出了基于极限梯度提升(XGBoost)和GPR时频特征的水泥路面脱空识别方法。采用正演模拟、室内试验和现场试验获得了脱空病害数据源,建立含有标签的脱空GPR数据集;通过重采样方法统一GPR数据采样频率,并对预处理后的GPR数据进行时频域特征提取,建立了包含18个时域和12个频域特征的数据集。以时频域特征为输入,是否存在脱空病害为输出,采用XGBoost算法构建脱空识别模型,并与随机森林(RF)和人工神经网络(ANN)算法进行对比。结果表明,模型的识别准确率排序为XGBoost(98.10%)>ANN(95.10%)>RF(93.17%),XGBoost模型识别精度最高,并能在实际路面上准确定位脱空区域。  相似文献   

11.
针对传统的协同过滤推荐算法中评分矩阵过于稀疏和算法准确度不高的问题,提出一种融合矩阵分解和XGBoost算法的推荐算法(MFXGB,Matrix Factorization XGBoost),其特点是利用SVD++算法(SVD,Singular Value Decomposition)对用户项目评分矩阵进行填充,避免过多的缺失值对算法精确度的影响,再利用XGBoost(eXtreme Gradient Boosting)算法训练有监督的模型用于预测用户评分.为了克服计算成本过高的困难,提出利用K-均值聚类方法进行特征提取用于训练XGBoost模型.将MFXGB算法应用于MovieLens数据集进行实验分析,结果显示,MFXGB算法的推荐精确度比传统的3种方法分别提高了8.91%、10.18%和11.79%,效果明显优于传统的推荐算法.  相似文献   

12.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

13.
针对短时交通流具有随机性和不确定性等特征,提出一种基于小波分析和集成学习的组合预测模型.首先,对原始交通流数据的平均行程时间序列应用Mallat算法进行多尺度小波分解,且对各尺度上分量进行单支重构;其次,对于各重构的单支序列分别使用极端梯度提升模型(extreme gradient boosting,XGBoost)进...  相似文献   

14.
为破除XGBoost模型的黑盒特性,增强模型的说服性,提出一种基于SHAP的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。  相似文献   

15.
魏东  杨洁婷  韩少然  朱准 《科学技术与工程》2023,23(29):12604-12611
针对建筑负荷预测模型特征选择工作量大、泛化能力提升难的问题,提出一种基于XGBoost-神经网络的建筑负荷特征筛选及预测方法,利用XGBoost算法训练滤波处理后的数据,基于平均绝对误差百分比MAPE确定最优特征子集,以改善模型精度和泛化能力;采用贝叶斯正则化算法训练前馈神经网络,以便能够在训练优化过程中降低网络结构复杂性,从而避免网络过拟合,进一步提升其泛化能力。针对某商业建筑的负荷预测实验结果表明,特征筛选后较筛选前模型MSE降低43.29%,有效提高了模型预测精度;分别以贝叶斯正则化和L-M算法对神经网络进行训练,前者5次试验RMSE和MAPE平均值较后者分别降低87.08%、85.33%,预测模型泛化能力得到有效提升。  相似文献   

16.
针对传统故障诊断模型面向海量故障数据时诊断准确度低的问题,首先,提出了一种局部均值分解与固定点算法联合降噪方法,以消除轴承振动信号中的噪声;其次,为了避免原始信号中敏感特征难以提取的问题,提出了一种基于核主成分分析的降维方法;再次,构建了一种基于改进极端梯度提升决策树的故障诊断模型,采用GS-PSO算法优化SVM性能,进而运用改进极端梯度提升决策树思想修正分类模型的残差以提升模型分类精度,应用Spark-大数据平台,通过并行处理技术进行科学计算;最后,采用CWRU提供的滚动轴承数据进行训练与仿真,证明构建的模型能实现对不同类型滚动轴承的识别诊断,并保证诊断结果的准确率。通过对4种不同故障诊断模型的对比分析,表明本文模型具有可行性和优越性。  相似文献   

17.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

18.
技术方案深度的不足导致依据定额概预算来确定输电线路工程投资的方法准确性低、工作量大,因此,研究基于机器学习的投资预测模型需求迫切。针对输电线路投资的高维数、非线性等特点,提出了基于极端梯度提升(extreme gradient boosting, XGBoost)算法的输电线路工程投资预测方法。通过采用实际输电线路工程数据对模型进行训练和测试,预测结果显示XGBoost模型在预测精度、结果偏差方面相较于神经网络和支持向量机(support vector machine, SVM)都具有较大的优势,能输出指标重要性排序,为决策者提供有效的投资额和控制指标参考,且模型的可靠性和可解释性较高。  相似文献   

19.
智慧园区的建设推动着企业与城市的发展,传统的园区管理方式已不再适用于产业融合创新的智慧园区。以曹家滩园区为例,设计智慧园区平台总体框架,针对园区中身份识别存在识别环境差、效率低、准确率低等问题,提出一种基于多模态多核学习的身份识别算法。所提算法将视频数据中的数据分为图像、音频,并采集个人信息的文本,并将三种模态的信息输入同一样本空间中,通过引入间隔约束的多核学习算法,保留不同模态的差异性和相似性,并进行特征融合与决策融合,最终采用分类器与评分机制输出身份识别结果。通过公开的视频数据集与曹家滩园区数据集进行实验,实验结果表明本文所提算法最高准确率达到97.2%,与传统算法相比有较大优势。  相似文献   

20.
利用测地线距离的改进谱聚类算法   总被引:1,自引:1,他引:0  
针对往复式压缩机故障数据空间分布复杂、常规算法不能有效聚类的问题,提出了一种改进的谱聚类算法.该算法使用新的相似度矩阵计算方式,根据故障数据流形分布的特点引入测地线距离取代欧氏距离作为数据间的关系度量;通过计算各数据点的邻域密度因子有效地识别和剔除了噪声点;利用基于密度的局部欧氏距离调整方法对流形间隙过小的区域进行了处理.在几个人工数据集和往复式压缩机故障数据集上的测试结果表明,改进谱聚类算法对于具有流形分布、多尺度、有噪声、流形间隙过小甚至交叉等特点的数据具有很好的聚类能力,聚类准确率比常规的k-均值和MSCA谱聚类算法分别提高了50.86%和8.6%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号