首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
客观来说,房价受到诸多因素的制约,正因如此,房价预测仍然是数据分析中一个非常经典且具有挑战性的问题.本文针对房价数据冗余,在实际场景中很难确定重要特征,提出了一种创新的数据预处理方式,并通过双模型迭代拟合的方式进行数据预测.首先从数据意义、数据形式和数据关联性三个方面进行初始数据预处理,然后根据数据选择适合的模型进行训练.在传统机器学习中,Random Forest和XGBoost是两种常用的方法.RF模型通过其Bagging过程,能够准确地评判“冗余”特征,而XGB模型在提高预测效果的同时,也囿于其泛化能力下降,无法稳定地反映特征重要性.因此,本文利用RF模型处理冗余数据,并使用XGB模型对新数据集进行拟合提高预测效果.本文在Kaggle竞赛的数据集("House Prices-Advanced Regression Techniques")上进行了实验,测试结果显示,XGB回归模型最终的回归精度R2为87%,而单独的RF模型或XGB模型的R2分别为79.2%和78.7%.实验证明,该数据预测方法能够明显提高房价预测效果.同时,为充分体现模...  相似文献   

2.
观来说,房价受到诸多因素的制约,正因如此,房价预测仍然是数据分析中一个非常经典且具有挑战性的问题.本文针对房价数据冗余,在实际场景中很难确定重要特征,提出了一种创新的数据预处理方式,并通过双模型迭代拟合的方式进行数据预测.首先从数据意义、数据形式和数据关联性三个方面进行初始数据预处理,然后根据数据选择适合的模型进行训练.在传统机器学习中,Random Forest和 XGBoost是两种常用的方法.RF 模型通过其 Bagging 过程,能够准确地评判“冗余”特征,而 XGB 模型在提高预测效果的同时,也囿于其泛化能力下降,无法稳定地反映特征重要性.因此,本文利用 RF 模型处理冗余数据,并使用XGB模型对新数据集进行拟合提高预测效果.本文在Kaggle竞赛的数据集("House Prices Advanced Regression Techniques")上进行了实验,测试结果显示,XGB回归模型最终的回归精度R2为87%,而单独的RF模型或XGB模型的R2分别为79.2%和78.7%.实验证明,该数据预测方法能够明显提高房价预测效果.同时,为充分体现模型拟合效果和预测能力,将“房价”改为具有“高”和“低”两类的离散变量,最终预测结果的精确度为93%,召回率为93%.  相似文献   

3.
选取深圳市3个主要城区185个居住小区的数据, 从中学质量(省级或非省级中学)的维度进行量化建立特征价格模型, 研究深圳市中学教育设施对房价资本化程度的影响。结果表明, 在影响中学周边小区二手房房价的因素中, 学校特征因素有显著的影响, 其中升学率、本硕以上教师和重点学校有正向助推作用, 而生师比有负向抑制作用。影响省级中学和非省级中学周边房价的学校特征因素存在差异, 其中在非省级中学周边小区二手房房价中, 主要是升学率和生师比等特征的影响, 而在省级中学周边小区二手房房价中, 主要是本硕以上教师人数和生师比等特征影响。与地铁和CBD的距离以及楼龄对中学周边房价表现为负影响, 且与重大商业服务中心和地铁站距离每增加1 km, 房价分别下降13.9%和28.7%, 楼龄每增加1年, 房价下降6.8%。研究结果揭示了中学教育质量特征对住宅价格的影响及程度, 综合反映了深圳市中学学区房价格的影响机制。  相似文献   

4.
针对网络个人信用有效评分缺失的问题,分析了互联网信贷个人信用评估数据的特点,选用支持向量机、随机森林和XGBoost分别建立了信用预测模型,并对3种单一模型进行了投票加权融合. 基于互联网信贷数据的特点,在特征工程中对样本集特征进行了离散化、归一化和特征组合等处理. 为增加对比,对实验数据集进行了FICO评估核心Logistic回归分析. 实验结果表明:3种单一算法性能均优于Logistic回归,XGBoost表现优于支持向量机和随机森林模型,预测相对准确;投票融合模型的表现比单一模型更好,模型分辨能力更优秀,预测精度更高,更适用于互联网信贷个人信用评估.  相似文献   

5.
为了有效地监管网络舆情,辅助管理人员进行决策,微博信息传播预测方法的研究具有重要应用价值。针对传统微博信息传播预测方法存在指标单一、预测效果较差问题,提出一种基于XGBoost模型的融合多特征微博信息传播预测方法。首先,分析微博传播网络和用户节点特性,提取出博主特征、微博内容特征、传播特征3类特征并构建数据集;接着,基于XGBoost方法分别构建微博累计转发量预测模型和微博最大转发深度预测模型;最后,通过模型在测试数据集上的平均绝对误差验证模型的预测效果。通过与线性回归等传统的预测方法比较分析可以看出,提出的预测方法能够取得良好的预测效果。  相似文献   

6.
针对供应链金融领域中小企业融资的信用风险控制问题,提出了一种在Bagging算法框架下结合贝叶斯优化和XGBoost算法的集成学习模型BO-XGBoost-Bagging(BXB)。首先,基于XGBoost特征重要度进行特征筛选,建立供应链金融信用评价指标体系。其次,通过贝叶斯优化获得XGBoost的最优超参数,并结合Bagging算法得到集成模型BXB。最后,在中小企业数据集上进行预测,通过实证研究验证信用评价模型的有效性。实证结果表明,BXB模型相比其他模型具有更好的预测效果,能够更加准确、全面地对中小企业的信用风险进行评估,更好地区分风险企业和正常企业,最大程度减少违约损失,在供应链金融信用评价方面有着较高的应用价值。  相似文献   

7.
以满足房地产行业中房价的快速评估为目的,研究了基于ArcEngine的城市房价评估系统.以内蒙古包头市为研究区,在介绍系统数据构成基础上,制定了房产估价原则,建立了房价估算模型.并以Visual Studio 2010开发环境下的C#语言对ESRI的ArcEngine开发组件进行二次开发.系统开发的整个过程包括:系统数据的处理、数据库的建立、系统框架结构设计、系统主要功能实现.该系统的实现证明了GIS的空间分析能力在房价评估中的良好应用效果.同时,系统也为房地产行业的空间信息化发展、相关部门的房价宏观预测、二手房选购者对房屋价格的评判、地理信息系统的市场应用等方面提供信息支撑.  相似文献   

8.
为提高路段短时交通流的预测精度,选取路段平均旅行时间作为预测指标,建立了一种基于极端样度上升(extrem gradient boosting,XGBoost)的短时交通流预测模型。首先通过对交通流数据的分析,在考虑交通流时空特性的基础上,分别构建目标路段时间序列训练集、测试集以及时空序列训练集、测试集,然后基于XGBoost模型以及构建的训练样本集建立时间序列预测模型以及时空序列预测模型,并利用训练好的模型进行预测,最后将模型预测结果与线性回归模型、神经网络模型预测结果进行比较。实验结果表明:基于XGBoost的短时交通流预测模型能够对路段未来时段平均旅行时间进行比较准确的预测,其中时间序列预测模型均方根误差为5. 32,时空序列预测模型均方根误差为4. 82,均低于线性回归模型和神经网络模型,且相比于仅考虑时间因素的短时交通流预测模型,同时考虑时空因素的预测模型得到的误差更低,预测效果更好。  相似文献   

9.
为破除XGBoost模型的黑盒特性,增强模型的说服性,提出一种基于SHAP的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。  相似文献   

10.
为给车辆调度优化以及集卡预约系统设计提供重要参考,利用所采集的深圳市某港口的码头闸口数据,建立一种基于数据挖掘的集卡周转时间短时预测方法.首先,通过对码头闸口数据进行分析,获取车辆到达时间分布、任务类型、作业方式等集卡作业特征以及集卡在码头内的周转时间;在此基础上,利用循环神经网络并结合训练集数据,建立集卡作业特征与其周转时间之间的映射关系.其次,为减少随机波动对周转时间预测效果的影响,利用小波分解算法对循环神经网络拟合结果的残差进行高频噪声分离,并通过自回归模型拟合过滤后的低频序列.最后,将拟合后的循环神经网络与自回归模型进行结合,建立一种支持集卡周转时间短时预测的组合模型,并利用测试集数据进行有效性验证.结果 表明,相比单一的循环神经网络,该组合模型可以大幅提升预测精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号