首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 175 毫秒
1.
观来说,房价受到诸多因素的制约,正因如此,房价预测仍然是数据分析中一个非常经典且具有挑战性的问题.本文针对房价数据冗余,在实际场景中很难确定重要特征,提出了一种创新的数据预处理方式,并通过双模型迭代拟合的方式进行数据预测.首先从数据意义、数据形式和数据关联性三个方面进行初始数据预处理,然后根据数据选择适合的模型进行训练.在传统机器学习中,Random Forest和 XGBoost是两种常用的方法.RF 模型通过其 Bagging 过程,能够准确地评判“冗余”特征,而 XGB 模型在提高预测效果的同时,也囿于其泛化能力下降,无法稳定地反映特征重要性.因此,本文利用 RF 模型处理冗余数据,并使用XGB模型对新数据集进行拟合提高预测效果.本文在Kaggle竞赛的数据集("House Prices Advanced Regression Techniques")上进行了实验,测试结果显示,XGB回归模型最终的回归精度R2为87%,而单独的RF模型或XGB模型的R2分别为79.2%和78.7%.实验证明,该数据预测方法能够明显提高房价预测效果.同时,为充分体现模型拟合效果和预测能力,将“房价”改为具有“高”和“低”两类的离散变量,最终预测结果的精确度为93%,召回率为93%.  相似文献   

2.
在盾构掘进过程中,竖向姿态控制难度较大,盾体常与设计轴线产生偏差。为解决既有盾构姿态预测模型无法准确提取数据特征和有效去除数据噪声的问题,充分挖掘盾构掘进实测数据时间序列信息,依托合肥地铁7号线耕耘路站—清潭路站区间盾构隧道工程,对收集的掘进数据进行预处理,包括去除停机状态数据及异常数据,提出用于盾构竖向姿态预测的CNN-LSTM组合模型,并将测试集上的模型预测结果与传统回归模型进行对比,最后对不同样本数量及固定网络参数时的模型性能进行研究。研究结果表明:CNN-LSTM组合模型对盾构竖向姿态的预测效果较好,在测试集上的预测平均绝对误差EMA和均方根误差ERMS较低,同时预测的决定系数R2较高,表明模型具有较小的预测误差和较高的预测精度;与ARIMA、LSTM和SVR模型相比,CNN-LSTM模型在测试集上预测的R2分别提高了1.04%、19.75%和79.63%,此外,模型的预测EMA和ERMS较低,并且训练耗时显著降低;不同训练集样本数量对CNN-LS...  相似文献   

3.
为了更加精准地预测二手房价格,该文以2019年深圳市二手房的真实交易数据为研究对象,利用线性回归模型、随机森林模型和XGBoost模型并加以POI计算来预测二手房价格.首先,对数据集进行清洗并可视化展示.其次,运用百度地图进行POI处理扩充数据集,使得数据集接近现实情况.接着,按照数据特征对房价影响的重要程度进行了排序,选取重要的特征来训练模型.最后,通过数值结果分析,XGBoost模型对二手房的房价评估效果最好,尤其是经过POI处理的数据集和XGBoost模型的这种组合,对于深圳市的二手房价格具有极好的预测效果.  相似文献   

4.
【目的】阅读理解是人类最重要的认知能力,评价人类的阅读理解能力需要客观指标。【方法】提出一种基于脑磁图(magnetoencephalogram, MEG)虚相干脑功能连接的预测模型,使用虚相干算法构建全脑MEG功能连接,并通过单变量特征选择算法对特征进行选择,采用偏最小二乘回归(Partial Least Squares, PLS)构建预测模型对阅读理解能力进行预测。【结果】基于MEG虚相干功能连接的偏最小二乘回归模型可以成功预测阅读理解分数;进行单变量特征选择的模型预测性能更高、预测更准确(R2[PVT-Language]=0.524,MSE[PVT-Language]=5.042;R2[ORRT-Language]=0.536,MSE[ORRT-Language]=5.142),并且发现采用与阅读理解相关的任务态数据集比静息态数据集更适合用来预测阅读理解能力,且特征选择的功能连接更精确。【结论】基于MEG虚相干功能连接的PLS预测模型可以用来客观评价人类阅读理解能力。  相似文献   

5.
通过对福建省厦门市某高校8栋公寓楼的房间日平均用电量的分析,提出一种建筑能耗的平衡点温度-多元线性回归(BPT-MLR)模型.使用统计方法识别平衡点温度,并根据该平衡点温度分段对房间日平均用电量进行多元线性回归预测分析;对8个参数进行筛选,最终选4个参数作为模型变量,包括1个数值型变量(室外空气平均温度)和3个定类型变量(性别、节假日指数和晴雨天指数).结果表明:对比3种数据驱动模型,BPT-MLR模型的预测性能最优,其R2值达到了95.29%,比BP神经网络模型和多元线性回归模型的R2值分别高出0.04%和24.64%.  相似文献   

6.
针对使用深度学习提取人脸表情图像特征时易出现冗余特征,提出了一种基于多 层感知机(MLP)的改进型 Xception 人脸表情识别网络 . 该模型将 Xception 网络提取的特征输 入至多层感知机中进行加权处理,提取出主要特征,滤除冗余特征,从而使得识别准确率得到 提升 . 首先将图像缩放为 48*48,然后对数据集进行增强处理,再将这些经过处理的图片送入 本文所提网络模型中. 消融实验对比表明:本文模型在CK+数据集、JAFFE数据集和MMI数据 集上的正确识别率分别为98.991%、99.02%和80.339%,Xception模型在CK+数据集、JAFFE数 据集和 MMI 数据集上的正确识别率分别为 97.4829%、90.476% 和 74.0678%,Xception+2lay 模 型在 CK+数据集、JAFFE 数据集和 MMI 数据集上的正确识别率分别为 98.04%、84.06% 和 75.593%. 通过以上消融实验对比,本文方法的识别正确率明显优于Xception模型与Xception+ 2lay模型. 与其他模型相比较也验证了本文模型的有效性.  相似文献   

7.
为了实现高速公路软土路基沉降的准确预测,采用遗传算法(GA)优化BP神经网络,研究3种输入对预测结果精度的影响.选取时间t以及其15 d前的沉降量St-15和平均沉降速率vt-15为影响因素,在t、t-St-15、t-St-15-vt-15三种输入下,分别取某高速公路软土路基运营期实测沉降数据的前50%、80%为训练集,余下原始数据为测试集,重复训练10次后取平均值作为输出值.采用决定系数(R2)来判别模型拟合度,均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为模型性能的评价指标.结果表明:3种输入的R2均大于0.99;训练集占原始数据的比例为50%时,t-St-15输入的预测误差最小,RMSE为1.31 mm, MAPE为4.71%;训练集占原始数据的比例为80%时,t-St-15-vt-15输入的预测误差最小,RMSE为0.29 mm, MAPE为1.00...  相似文献   

8.
以福建平潭海域为研究对象,探究表观增氧量(AOI)与赤潮藻密度之间的相关性,从而利用AOI指标进行赤潮预警.建立AOI的赤潮预警模型,通过福建省海洋和渔业监测部门收集的2013-2019年平潭海域气象、水质和赤潮监测信息,利用水温、盐度、溶解氧浓度等环境参数进行AOI与藻密度之间的拟合.结果显示,AOI与多种优势藻密度的拟合公式为ρ(AOI)=0.599 2 lgN-2.751 8(R2=0.544 3),其中AOI与米氏凯伦藻密度的拟合公式为ρ(AOI)=0.791 1 lgN-3.685 6(R2=0.802 6),通过2019年5月实际监测的数据进行验证,多种优势藻的AOI预测精度达到63%,米氏凯伦藻AOI的预测精度达到71%.研究表明,利用AOI对藻类赤潮进行预警和评价更快速、简便,可以进一步结合分析藻的群落结构和优势藻占比,预期可提高预警精度.  相似文献   

9.
针对数据分布不均匀且因素多而容易造成预测不精确的问题,提出一种结合由粗到精与特征筛选的精确回归预测方法.首先,由于数据分布不均匀且预测区间大,直接预测难以精确地拟合,提出一种由粗到精的预测方法,并使用决策树进行粗分类,预测目标所在的子区间,然后在子区间内实现精确的回归预测.其次,如果数据量少且特征因素多会引起过拟合,而且部分冗余特征会影响模型的预测精度,因此,提出一种基于特征筛选的回归预测方法以提高预测精度.在大学生的英语成绩与其人格因素数据集上进行相关实验,结果证明了由粗到精和特征筛选方法与传统回归模型相比精度更高且稳定性更好.通过提出的人格因素与英语成绩回归预测模型,可以制定合理的培养方案弥补学生人格因素中的短板,提升学生的自身竞争能力,从而更好地推动中国的英语教育.  相似文献   

10.
为深入研究胺类阳离子捕收剂在石英表面吸附能与其结构之间的关系,基于遗传算法构建了20种胺类捕收剂在石英表面吸附能与其结构参数之间的定量构效关系模型,得到了模型的相关系数R2=0.969,调整系数R2ad=0.964,交叉验证系数R2cv=0.955,显著值F=168.429,表明模型预测结果与模拟计算值拟合较好.四种未参与建模的阳离子捕收剂对所构建模型外部检验结果误差不超过5%,证明模型具有较好的预测性,能够较好预测胺类捕收剂在石英表面的吸附能.  相似文献   

11.
针对当前城市内河氮磷算法研究不足的问题,以福州市晋安河为研究对象、下洞江为验证对象,对总磷(TP)和总氮(TN)这两个重要河流水质指标进行研究.提出单波长连续投影算法(SPA)和双波长皮尔逊相关性分析(Pearson)进行自变量筛选,再结合机器学习算法对晋安河实测光谱数据进行模型构建和水质反演可视.实验表明,TP、 TN与氨氮有很强的相关性,在构建TP、 TN水质参数反演模型时,加入氨氮的特征波长,并采用SPA+Person+RF算法构建的TP模型效果最优,其R2为0.92,ERMS为0.005 mg·L-1;采用SPA+Pesrson+SVR算法构建的TN模型效果最优,其R2为0.90,ERMS为0.082 mg·L-1.优化后的算法比传统算法提升显著.经验证,该方法同样适用下洞江水质反演,可用于城市内河水环境监测.  相似文献   

12.
随着大数据、人工智能以及高性能计算的快速发展, 数据驱动的新材料研发成为研究热点. 在对材料数据进行数据挖掘的过程中, 需要对特征集合进行预处理, 通过减少无关冗余特征, 不仅可以避免模型过拟合, 还能提高模型的可解释性. 基于此, 提出了一种基于强化学习的特征选择(feature selection based on reinforcement learning, FSRL) 算法, 将封装式特征选择抽象成机器学习模型和"环境"互动的过程, 并根据利益最大化准则将对应特征加入特征子集中. 同时, 为了提高模型的预测精度, 还提出一种基于符号变换的特征构造方法来生成新的特征. 最后, 将所提出方法应用到非晶合金材料的分类预测任务和铝基复合材料的回归任务中. 实验结果表明, FSRL 算法的分类准确率最高提升了 2.8%, 而在回归任务中, 基于特征构造的 FSRL 算法使得预测精度最高提升了 22.9%.  相似文献   

13.
机械钻速是钻井优化、缩短钻井周期的关键因素,传统的机械钻速预测大多是在钻井后进行钻井分析,预测效率和精度低、地层适用性不广。为了以更高效的方法预测得到高精度机械钻速,提出基于长短期记忆(LSTM)神经网络的深度序列机械钻速预测方法。采集实时钻井数据集,使用皮尔逊相关系数衡量各特征之间的相关性,筛选出井深、伽玛射线、地层密度、孔隙压力、井径、钻时、排量、钻井液密度等8个参数。构建LSTM神经网络模型,训练LSTM模型并预测ROP,对预测结果进行分析,并用决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)等指标对LSTM模型、BP模型和SVM模型性能进行对比分析。结果表明:LSTM模型其R2、RMSE和MAPE的值分别为0.948、1.151和17.075,相较于BP模型和SVM模型,其R2更大,RMSE和MAPE较小,说明LSTM模型预测性能更好。该方法有助于钻井工程师和决策者提前获得钻井信息,从而更好地规划钻井作业,缩短钻井周期,同时为钻井参数预测提供新的途径,能改善以往预测方法在处理复杂地层问题时...  相似文献   

14.
软件缺陷对软件功能的实现具有不可预知的危险,是软件产品的固有成分,提高软件的可靠性,关键在于降低软件缺陷出现的概率,而如何利用已有缺陷数据构建预测系统框架是研究的重点.针对传统软件测试技术虽然能够有效发现软件缺陷,但需要消耗大量的时间和精力,制约软件开发效率的缺点,提出基于特征选择的软件缺陷预测方法,算法对软件缺陷模型的经验数据集进行多特征选择,进而克服数据集之间的冗余性移除无关特征,得到缺陷模型的分类,最终实现软件缺陷的精确预测.实验表明,基于特征选择的软件缺陷预测方法具有较好的预测效果和较高的应用价值.  相似文献   

15.
【目的】 通过非线性和多种机器学习算法构建并对比不同的立木材积模型,为樟子松(Pinus sylvestris var. mongolica)立木材积的精准预测提供理论依据。【方法】 以大兴安岭图强林业局184株樟子松伐倒木数据为基础,建立非线性二元材积模型(NLR),并通过十折交叉检验和袋外数据(OOB)误差检验的方法得到3种最优机器学习算法,包括:反向神经网络(BP)、ε-支持向量回归(ε-SVR)和随机森林(RF)。对比分析不同模型间的差异,得到最优立木材积模型。【结果】 机器学习算法在立木材积的拟合和预测中均优于传统二元材积模型,具体拟合结果排序为RF>BP>ε-SVR> NLR。其中RF的决定系数(R2)比传统模型的提高了2.00%,均方根误差(RMSE)、相对均方根误差(RMSE%)、平均绝对误差(MAE)分别降低了22.90%、22.93%、36.34%,且与真实值相比平均相对误差(MRB)的绝对值更低,证明了RF在立木材积预测中的优越性。【结论】 机器学习算法作为一种新兴的建模方法可以有效地提高立木材积的预测精度,为森林资源的精准调查和经营管理提供新的解决方案。  相似文献   

16.
为给车辆调度优化以及集卡预约系统设计提供重要参考,利用所采集的深圳市某港口的码头闸口数据,建立一种基于数据挖掘的集卡周转时间短时预测方法.首先,通过对码头闸口数据进行分析,获取车辆到达时间分布、任务类型、作业方式等集卡作业特征以及集卡在码头内的周转时间;在此基础上,利用循环神经网络并结合训练集数据,建立集卡作业特征与其周转时间之间的映射关系.其次,为减少随机波动对周转时间预测效果的影响,利用小波分解算法对循环神经网络拟合结果的残差进行高频噪声分离,并通过自回归模型拟合过滤后的低频序列.最后,将拟合后的循环神经网络与自回归模型进行结合,建立一种支持集卡周转时间短时预测的组合模型,并利用测试集数据进行有效性验证.结果 表明,相比单一的循环神经网络,该组合模型可以大幅提升预测精度.  相似文献   

17.
在恶劣的油藏条件下,化学驱提高采收率方法的可行性主要在实验室进行,以探究化学驱方案在现场实施的可能效果,但此类实验通常昂贵且费时。为了提高筛选效率和研究变量关系,进行了3个聚合物驱油实验项目,其次通过构建14种机器学习基础模型来预测低渗透砂岩聚合物驱油实验的效率。结果表明多层感知机(MLP)、随机树(RF)和极限梯度上升(XGB)模型表现最佳,它们在测试集的确定系数均为0.99,均方根误差分别为0.855、0.836和0.859。模型表明特征重要性由强至弱依次为含水率、累积注入孔隙体积、渗透率、非均质系数、孔隙度、聚合物注入量、聚合物浓度、注入压力。本研究为室内物理低渗透砂岩聚合物驱提供了可靠的数据,给出了14种机器学习模型预测性能直接对比,建立了高拟合高泛化高稳定低误差的低渗透砂岩聚合物驱预测模型,这将有助于化学驱方案快速在低渗透储层应用,以及降低失败风险。  相似文献   

18.
掌握天然气管道黑色粉末粒度分布(PSD)信息对于解决黑色粉末问题十分关键。如今常用的颗粒PSD模型较多,但缺乏较为成熟的模型评价机制。基于某一实际天然气管道内的黑色粉末数据,引入了SRMSE、R2、IAIC等评价指标和混淆矩阵、ROC曲线分别对7种常见PSD模型的拟合优度和预测能力进行了评价,结果显示,对数正态模型兼具描述集中分布和平均分布的能力而在拟合优度方面更具优势;同时,对数正态模型在颗粒全尺寸范围内[0.30 μm,7.25 μm]都有有效的预测效果。因此,该模型是一种综合预测能力最强的分布模型。  相似文献   

19.
针对北方农村地区“煤改电”供暖方式带来运行费较高的问题,以及农居环境室温偏低的问题提出一种座椅辅助供暖方式.分析局部供暖方式下人体热反应的变化规律,研究人体整体热感觉、整体热舒适,以及整体热可接受度在座椅加热前后的变化和相互关系.研究结果表明:座椅加热可以有效改善人体热反应,环境温度偏离热中性环境越多,改善程度越明显;3个热反应指标在加热前密切相关,加热后因热感觉分布不均匀出现分离;以整体热舒适作为评价指标,对整体热感觉与热感觉不均匀度做线性回归分析,拟合度较高(R2=0.896);而引入平均皮肤温度与整体热感觉做拟合分析,拟合度较好(R2=0.916).由此得到结合主观热反应与客观生理指标的综合预测评价模型,经验证预测效果较好(R2=0.903).  相似文献   

20.
【目的】确定黏土路基回弹模量的最优估计模型,实现黏土路基回弹模量的准确预测。【方法】采用贝叶斯高斯过程回归方法,建立了路基土的围压、偏应力、含水率以及干重度与路基回弹模量之间的定量关系,实现了高斯过程回归参数的准确估计与最优影响因子组合的客观选择,在模型的复杂度与拟合程度之间达到了自动平衡。【结果】基于所提出的贝叶斯高斯过程回归方法可准确预测路基的回弹模量,所选最优模型的决定系数(R2)和平均绝对百分误差(RMAPE)分别达到了0.99和1.51%,与全变量模型的预测性能几乎相同。在100次随机试验中,最优模型被选择的比率达到了88%。【结论】所提出的贝叶斯高斯过程回归方法不仅可以通过路基土相关物理力学参数准确预测路基的回弹模量,还可以有效剔除冗余输入变量,在保证模型拟合程度的情况下,降低了模型的复杂度,这对模型的应用与推广具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号