共查询到20条相似文献,搜索用时 0 毫秒
1.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。 相似文献
2.
3.
刘宝慧 《甘肃联合大学学报(自然科学版)》2009,23(1)
利用无回答所提供的信息采用最小二乘估计给出了缺失数据情形下的目标变量的一种回归插补及其方差估计.在仅目标变量缺失数据情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)pxp2i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(XTX)-1XT1.在辅助变量部分缺失且目标变量缺失的情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)p1xp12i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(X*TX*)-1XT1. 相似文献
4.
5.
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。 相似文献
6.
7.
本文提出一种基于信息增益的加权贝叶斯插补法(WBIIG),通过加入属性权重,使得属性对插补顺序的影响被考虑到模型中,实现对基于信息增益的贝叶斯插补法的优化,分别在3种缺失类型(完全随机缺失、随机缺失、非随机缺失)的心脏病类医疗数据集上进行实验验证。结果显示,在多数情形下,WBIIG对3种心脏病类医疗缺失数据集插补后得到的插补精度和分类预测正确率高于基于信息增益的贝叶斯插补法(BIIG)。本文提出的方法能够有效提升缺失值插补的准确性以及对插补后缺失数据的分类预测正确率。 相似文献
8.
统计调查表缺失数据插补效果的实证分析 总被引:1,自引:0,他引:1
针对统计调查表的实际数据,对其缺失数据进行了常用插补方法的实证分析.首先,实证分析了一维模型的局限性及缺点;其次,分别对决策树模型、神经网络模型、关联规则模型算法,在对输入(预测)变量进行系统优化基础上,统计插补的准确率,比较优劣;最后,提出了提高插补准确率的一个值得进一步研究的方向. 相似文献
9.
为改善浮动车全球定位系统(global positioning system, GPS)数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,该模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21 d的出行轨迹数据进行插补。结果表明:所构建的模型平均误差为12.3 m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9、24.3、239.3 m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。 相似文献
10.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法. 相似文献
11.
12.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性. 相似文献
13.
以黑河流域湿地、农田、草地、柽柳、胡杨林、混合林生态系统为研究对象,结合气象因子(净辐射、温度、土壤热通量、风速、相对湿度、土壤体积含水率),分别采用多元线性回归(MLR)、决策树(CART)、随机森林(RF)、支持向量回归(SVR)、BP人工神经网络(BPANN)、深度学习(DL)等方法对蒸散量进行插补。结果表明:(a)RF、SVR、BPANN、DL在各个生态系统的蒸散量插补精度均较高(R2 = 0.8~0.93,RMSE=21.730~41.731 W/m2,MAE=12.153~26.129 W/m2),但SVR在柽柳、混合林生态系统的结果稍差于其他3种方法(R2降低了0.01~0.02),MLR插补精度最差(R2 =0.6~0.7),CART结果介于之间(R2 = 0.78~0.9)。(b)加入土壤体积含水率能一定程度提升模型插补的精度(R2提高了0.01~0.06)。(c)利用建立的插补模型去插补其他年份的蒸散量,发现其精度有不同程度的下降。综合考虑模型的精度和稳定性,RF、BPANN、DL对于蒸散量的插补具有较高的精度,同时加入土壤体积含水率可以提高模型插补的精度。 相似文献
14.
《华中科技大学学报(自然科学版)》2017,(7):78-83
研究了MERRA网格点与输入变量的数量对插补精度的影响.以人工神经网络与遗传算法为工具建立MERRA数据与缺测数据相关关系的数学模型,基于该模型对现场缺测数据进行插补.该方法解决了在缺少合适参考气象站、参考测风塔数据时的缺测数据插补难题.以湖北某山区风场为例进行验证,结果表明:插补精度与选取的MERRA格点数量一定范围内呈正比关系,输入模型变量的较优选择为风速、风向、单位时间气温变化、日夜以及季节,计算得到的插补数据与缺测数据相关系数达到0.814,相对采用参考气象站数据和参考测风塔数据作为数据来源的方法,相关系数分别提高97.6%和10.3%. 相似文献
15.
基于八方向插补算法,提出一种改进的逐点比较插补算法。通过最大插补误差分析,利用解析求解、数值比较及计算机运算,得到一种插补精度较高、运算速度较快、速率较平稳的偏差计算方法。 相似文献
16.
在滑坡地表位移监测过程中,由于设备工作异常或恶劣气候的干扰,原始数据会随机出现长时间序列的缺失,这类数据对滑坡的预警和预测有很大的影响。针对上述问题,提出了一种基于主成分分析(principal component analysis, PCA)和长短期记忆网络(long-short term memory, LSTM)的数据插补方法。首先利用PCA实现滑坡监测数据的降维和特征提取,消除数据间的相关性,然后建立基于LSTM的地表位移监测数据插补模型,对缺失数据进行插补。实验结果表明:该模型与BP(back propagation)神经网络等其他几种机器学习插补模型相比,平均绝对误差、均方根误差和平均绝对百分比误差分别为0.523、1.233和0.009,均优于其他几种模型;该模型能够较好地解决地表位移长时间序列数据缺失的问题。 相似文献
17.
谭伟明 《佛山科学技术学院学报(自然科学版)》1999,17(4):4-7
提出了空间椭圆插补的一种新方法,首先使用逐点比较法平面圆弧插补获得基本插补量,然后以三维坐标变换将基本插补量变换成为空间椭圆的插补量。平面圆弧插补和坐标变换只使用加减法运算,插补简简便,高效。 相似文献
18.
蔡明仪 《上海大学学报(自然科学版)》1996,2(2):158-165
本文给出了摆线数据采样插补公式、终点判据和流程图,详细分析了该算法的各种误差对加工精度的影响.表明该算法的轨迹误差小于1μm,进给步长误差小于025μm/8ms.运用该算法编制的插补程序,在33MHz80386CPU(带80387协处理器)下运行,每次插补占用机时小于1.5ms.完全满足高精度和实时性的要求. 相似文献
19.
基于数据采样插补的加减速控制的研究 总被引:6,自引:0,他引:6
张莉彦 《北京化工大学学报(自然科学版)》2002,29(3):91-93
加减速控制是数控系统开发的关键技术之一.文中系统地研究了加减速的方式及算法,对其特点及应用进行了比较,并提出用迭代法代替指数法,降低算法的复杂程度. 相似文献
20.
利用随机化技术进行敏感问题抽样调查中常会出现缺失数据,借鉴Srivastava SK[Calc Stat Assoc Bull 16(1967)]在直接调查中利用辅助变量的构造估计量的思想,建立了具有数量特征的随机化Eichhorn模型中缺失数据的比插补方法.通过理论比较和数值模拟得出的结果表明提出的插补方法比传统的方法效率更高. 相似文献