首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

2.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。  相似文献   

3.
利用无回答所提供的信息采用最小二乘估计给出了缺失数据情形下的目标变量的一种回归插补及其方差估计.在仅目标变量缺失数据情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)pxp2i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(XTX)-1XT1.在辅助变量部分缺失且目标变量缺失的情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)p1xp12i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(X*TX*)-1XT1.  相似文献   

4.
对于抽样调查中经常出现的无回答数据,在均匀回答机制下,给出了两个辅助变量下目标变量缺失数据的回归插补模型。对于多个辅助变量的情形,可按上述方法进行目标变量的回归插补。  相似文献   

5.
6.
统计调查表缺失数据插补效果的实证分析   总被引:1,自引:0,他引:1  
针对统计调查表的实际数据,对其缺失数据进行了常用插补方法的实证分析.首先,实证分析了一维模型的局限性及缺点;其次,分别对决策树模型、神经网络模型、关联规则模型算法,在对输入(预测)变量进行系统优化基础上,统计插补的准确率,比较优劣;最后,提出了提高插补准确率的一个值得进一步研究的方向.  相似文献   

7.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.  相似文献   

8.
9.
在滑坡地表位移监测过程中,由于设备工作异常或恶劣气候的干扰,原始数据会随机出现长时间序列的缺失,这类数据对滑坡的预警和预测有很大的影响。针对上述问题,提出了一种基于主成分分析(principal component analysis, PCA)和长短期记忆网络(long-short term memory, LSTM)的数据插补方法。首先利用PCA实现滑坡监测数据的降维和特征提取,消除数据间的相关性,然后建立基于LSTM的地表位移监测数据插补模型,对缺失数据进行插补。实验结果表明:该模型与BP(back propagation)神经网络等其他几种机器学习插补模型相比,平均绝对误差、均方根误差和平均绝对百分比误差分别为0.523、1.233和0.009,均优于其他几种模型;该模型能够较好地解决地表位移长时间序列数据缺失的问题。  相似文献   

10.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

11.
课堂教学评估是当前各高校教学质量监督的主要手段之一,科学、客观、公正地评价教师的教学质量对于提高教师教学积极性,对促进教学质量的提高,确保教学目标的实现具有积极的推动作用。本文利用统计学上缺失数据的插补方法对课堂教学质量评价缺失数据进行修复,以期促进课堂教学质量评价的公平性,更好的发挥其在教学质量监督和管理中的积极意义。  相似文献   

12.
研究了MERRA网格点与输入变量的数量对插补精度的影响.以人工神经网络与遗传算法为工具建立MERRA数据与缺测数据相关关系的数学模型,基于该模型对现场缺测数据进行插补.该方法解决了在缺少合适参考气象站、参考测风塔数据时的缺测数据插补难题.以湖北某山区风场为例进行验证,结果表明:插补精度与选取的MERRA格点数量一定范围内呈正比关系,输入模型变量的较优选择为风速、风向、单位时间气温变化、日夜以及季节,计算得到的插补数据与缺测数据相关系数达到0.814,相对采用参考气象站数据和参考测风塔数据作为数据来源的方法,相关系数分别提高97.6%和10.3%.  相似文献   

13.
以黑河流域湿地、农田、草地、柽柳、胡杨林、混合林生态系统为研究对象,结合气象因子(净辐射、温度、土壤热通量、风速、相对湿度、土壤体积含水率),分别采用多元线性回归(MLR)、决策树(CART)、随机森林(RF)、支持向量回归(SVR)、BP人工神经网络(BPANN)、深度学习(DL)等方法对蒸散量进行插补。结果表明:(a)RF、SVR、BPANN、DL在各个生态系统的蒸散量插补精度均较高(R2 = 0.8~0.93,RMSE=21.730~41.731 W/m2,MAE=12.153~26.129 W/m2),但SVR在柽柳、混合林生态系统的结果稍差于其他3种方法(R2降低了0.01~0.02),MLR插补精度最差(R2 =0.6~0.7),CART结果介于之间(R2 = 0.78~0.9)。(b)加入土壤体积含水率能一定程度提升模型插补的精度(R2提高了0.01~0.06)。(c)利用建立的插补模型去插补其他年份的蒸散量,发现其精度有不同程度的下降。综合考虑模型的精度和稳定性,RF、BPANN、DL对于蒸散量的插补具有较高的精度,同时加入土壤体积含水率可以提高模型插补的精度。  相似文献   

14.
针对传统缺失值检测方法缺少对多维特性数据全面立体的分析及难以从众多缺失值填补算法中选择合适方法的问题,通过设计缺失值检测方法,在目前常见的数据点缺失度基础上,首次提出数据总体缺失度和加权数据总体缺失度的概念,实现对数据集缺失程度的全面检测,进而通过实验对比分析不同缺失值填补方法性能。实验结果表明,在不同缺失度的情况下,不同缺失值填补算法的性能不同,所提出的方法可为缺失值填补算法的选择提供有效依据。  相似文献   

15.
为改善浮动车全球定位系统(global positioning system, GPS)数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,该模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21 d的出行轨迹数据进行插补。结果表明:所构建的模型平均误差为12.3 m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9、24.3、239.3 m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。  相似文献   

16.
充分利用对辅助变量的回答所提供的变量信息,采用最小二乘方法,给出了目标变量不完全情形下对其的一种回归插补,并对回归差补的期望和方差进行了讨论。  相似文献   

17.
本文给出了缺失数据场合泊松分布参数的经验贝叶斯估计、无信息先验下的贝叶斯估计且基于贝叶斯风险进行了比较.  相似文献   

18.
19.
研究在数据缺失情形下,混合伽马分布总体参数的估计与检验问题.首先,使用矩估计方法,找到分布中未知参数的矩估计,并证明统计量的相合性和渐近正态性.其次,对两个具有相同总体参数的混合伽玛分布的假设检验进行了测试,并确定了两个具有相同值的总体参数的检验统计量,并给出了一个逐步的置信区间.此外,通过随机模拟研究了在不同样本量下...  相似文献   

20.
讨论了具有部分缺失数据两个几何分布总体的参数估计,证明了估计的强相合性和渐近正态性,为几何分布总体的统计推断问题提供了一种解决的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号