首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

2.
本文提出一种基于信息增益的加权贝叶斯插补法(WBIIG),通过加入属性权重,使得属性对插补顺序的影响被考虑到模型中,实现对基于信息增益的贝叶斯插补法的优化,分别在3种缺失类型(完全随机缺失、随机缺失、非随机缺失)的心脏病类医疗数据集上进行实验验证。结果显示,在多数情形下,WBIIG对3种心脏病类医疗缺失数据集插补后得到的插补精度和分类预测正确率高于基于信息增益的贝叶斯插补法(BIIG)。本文提出的方法能够有效提升缺失值插补的准确性以及对插补后缺失数据的分类预测正确率。  相似文献   

3.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

4.
首先, 用条件最小二乘方法讨论缺失数据下MGINAR(p)模型的参数估计问题, 得到了参数的条件最小二乘估计. 其次, 模拟验证4种处理缺失数据方法的可行性并比较估计效果, 模拟结果表明: 当缺失概率较小时, 可使用个案剔除法或均值插补法; 当缺失概率较大时, 可使用桥插补法, 以降低估计偏差.  相似文献   

5.
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。  相似文献   

6.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.  相似文献   

7.
对于缺失数据的处理,通常会采用直接删除缺失数据或者插补数据的方法来得到完整的数据集。多重插补法是对缺失数据集进行多次插补,并且提高数据稳定性的一种较好的缺失数据处理方法。基于多重插补法分析公路安全数据,进而对完整的数据集进行方差估计的比较。经过具体的计算和分析可以得到结论,多重插补法可以得到信息量相对完整的数据集,利用这样的数据集得到的分析结果更加可靠。  相似文献   

8.
纵向调查中出现缺失数据的情况非常普遍,如何选择合适的方法处理纵向调查数据的缺失问题是一个研究的热点,影响参数估计结果的无偏性和有效性.本文总结了国际上先进的缺失数据处理方法,并结合本人的实践和思考,对纵向抽样调查中缺失数据的来源和处理方法提出了自己的一些见解,尤其研究了插补法特别是多重插补法在处理纵向缺失数据时的应用.  相似文献   

9.
选取内蒙古某一风电场为研究区,在对本场风机、测风塔测风数据进行质控后,按照不同月、风向对风机风速进行相关性分析,划分出风机轮毂高度风速高相关片区16类.以片区的某一台风机为例,统计该风机一年逐时数据的缺失、异常情况,并选用自回归差分移动平均法(ARIMA)、风机片区时空插补法进行风机风速异常及缺失值插补.检验结果表明:插补后风机风速与实际值非常接近,基于风机片区的时空插补平均偏差约为0.68m/s,ARIMA方法的平均偏差约为0.82m/s,两种方法的插补结果7月优于1月;ARIMA插补适用于0~6h短时插补,而基于风机片区的时空插补适合于任意时长的插补,但是对片区风机的风速完整性有要求.总之,ARIMA与基于风机片区的时空插补方法均有较好的效果,且可根据实际情况具体选择.  相似文献   

10.
煤与瓦斯突出是煤矿事故发生的主要原因.正确预测煤与瓦斯突出,对于煤炭企业安全生产具有重要意义.对和煤与瓦斯突出相关的5个特征进行分析,采用拉依达准则处理数据异常值.针对数据变量缺失的情况,选择具有代表性的均值插补、多重插补、K近邻插补和随机森林插补方法完成数据插补.采用随机森林、支持向量机和K近邻模型进行煤与瓦斯突出预测.采用精确度,特异度和敏感度作为性能指标.实验表明,采用随机森林数据插补方法并利用随机森林模型完成的预测,取得了精度98.94%、敏感度98.67和特异度100%的性能,在所有数据插补方法和预测模型组合中性能最优.  相似文献   

11.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

12.
考虑响应变量随机缺失下线性模型响应变量均值的估计问题,分别获得了基于完全观测样本数据、线性回归插补后的“完全样本”和逆概率加权插补后的“完全样本”得到的响应变量均值估计,并证明了其渐近正态性.  相似文献   

13.
谌桢文  常军 《科学技术与工程》2023,23(20):8846-8853
桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补传感器数据中的缺失值,确保桥梁监测数据的完整性。由于不同位置处相同类型传感器的相关性较强,首先利用岭回归(Ridge Regression,RR)解决共线性问题,建立各传感器数据之间的关联,并预测缺失数据。接着引入季节性差分自回归滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA) 方法,利用其样本外预测能力并结合岭回归方法预测桥梁未来运行数据。然后,通过设立预警值实现健康状况预警,以保证桥梁健康运行。最后,将该方法应用于实桥中,验证了其有效性,为传感器数据填补以及预测桥梁未来状态提供了一个有效的预测模型。  相似文献   

14.
区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。  相似文献   

15.
李英华  刘妍  秦永松 《广西科学》2009,16(4):400-402,413
在响应变量随机缺失的线性模型中,利用R统计软件模拟比较完全样本法、固定填补法和分数线性回归填补法得到的回归系数、响应变量均值、响应变量的分布函数、响应变量的分位数估计,并用标准误差(SE)评判其优劣.结果表明,除固定填补法外,无论采用其余哪种方法,随着样本容量的增大,评判值SE减小,样本容量越大,估计也就越精确 缺失概率的大小也影响估计的精度,缺失概率越大,相应的评判值SE越大,估计的精度也就越差 另外,在分数线性回归填补法中,J=5的结果总是比J=1的结果好,这说明随着J的增大,其估计精度也随着提高.  相似文献   

16.
多数全基因组关联性研究(GWAS)采用不同的分型芯片,导致遗传变异位点的数目及选择准则不同。基因型填补可以依据已有的基因分型数据,对未分型的位点进行填补。在应用IMPUTE2软件对基因型和表型数据库(db Ga P)中胃癌GWAS数据进行全基因组填补,以详细介绍全基因组填补的原理和过程。以第九号染色体为例,使用1000 Genome Project模板介绍全基因组填补的过程,包括填补前的质量控制、Pre-phasing、填补过程、填补的质量评估及填补后的关联性分析。第九号染色体在填补前有21 033个位点;而在填补后有1 630 406个SNP;其中INFO0.3的SNP位点有817 494个;而填补质量较高(INFO0.5)的位点数目有584 755个。IMPUTE2软件可以快速准确的对未分型的基因型进行填补,从而可以将多个GWAS数据整合到相同的位点数和密度上,再进行联合分析可以提高检验的把握度以便发现新的遗传易感性位点。  相似文献   

17.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

18.
传感器节点监测数据缺失会影响核电站外围环境辐射监测的有效性,需要对缺失数据进行准确估计.提出一种基于支持向量机的监测数据缺失值估计算法,对传感器节点缺失监测数据进行估计.用实际监测数据对算法进行了验证,用均方误差和相关系数评价实验结果.并与现有的基于神经网络的估计算法进行了性能比较.实验结果表明,本文所提出的算法具有较高的估计精度.  相似文献   

19.
关于销售者的产品责任归责原则我国学者一直存在争议。我国关于销售者产品责任归责原则的相关规定存在着不明确、不符合法律逻辑的情况。从销售者承担的义务、销售者的地位、我国经济发展水平等方面考查,销售者承担无过错责任具有不合理性。销售者承担过错责任才更符合公平合理原则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号