首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
对于缺失数据的处理,通常会采用直接删除缺失数据或者插补数据的方法来得到完整的数据集。多重插补法是对缺失数据集进行多次插补,并且提高数据稳定性的一种较好的缺失数据处理方法。基于多重插补法分析公路安全数据,进而对完整的数据集进行方差估计的比较。经过具体的计算和分析可以得到结论,多重插补法可以得到信息量相对完整的数据集,利用这样的数据集得到的分析结果更加可靠。  相似文献   

2.
本文提出一种基于信息增益的加权贝叶斯插补法(WBIIG),通过加入属性权重,使得属性对插补顺序的影响被考虑到模型中,实现对基于信息增益的贝叶斯插补法的优化,分别在3种缺失类型(完全随机缺失、随机缺失、非随机缺失)的心脏病类医疗数据集上进行实验验证。结果显示,在多数情形下,WBIIG对3种心脏病类医疗缺失数据集插补后得到的插补精度和分类预测正确率高于基于信息增益的贝叶斯插补法(BIIG)。本文提出的方法能够有效提升缺失值插补的准确性以及对插补后缺失数据的分类预测正确率。  相似文献   

3.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

4.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.  相似文献   

5.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

6.
选取内蒙古某一风电场为研究区,在对本场风机、测风塔测风数据进行质控后,按照不同月、风向对风机风速进行相关性分析,划分出风机轮毂高度风速高相关片区16类.以片区的某一台风机为例,统计该风机一年逐时数据的缺失、异常情况,并选用自回归差分移动平均法(ARIMA)、风机片区时空插补法进行风机风速异常及缺失值插补.检验结果表明:插补后风机风速与实际值非常接近,基于风机片区的时空插补平均偏差约为0.68m/s,ARIMA方法的平均偏差约为0.82m/s,两种方法的插补结果7月优于1月;ARIMA插补适用于0~6h短时插补,而基于风机片区的时空插补适合于任意时长的插补,但是对片区风机的风速完整性有要求.总之,ARIMA与基于风机片区的时空插补方法均有较好的效果,且可根据实际情况具体选择.  相似文献   

7.
数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题.常用的插补模型有参数模型、非参数模型和半参数模型,其中关于半参数模型的研究较少,考虑到半参数模型的优越性,文章将半参数回归模型与插补方法相结合,利用最小二乘核估计构建半参数模型,再利用辅助变量对目标变量进行估计来建立缺失数据的插补数据集,进而实现缺失数据的插补,并通过案例探究该方法的实现及其可行性.  相似文献   

8.
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。  相似文献   

9.
首先, 用条件最小二乘方法讨论缺失数据下MGINAR(p)模型的参数估计问题, 得到了参数的条件最小二乘估计. 其次, 模拟验证4种处理缺失数据方法的可行性并比较估计效果, 模拟结果表明: 当缺失概率较小时, 可使用个案剔除法或均值插补法; 当缺失概率较大时, 可使用桥插补法, 以降低估计偏差.  相似文献   

10.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

11.
针对成分数据中含有近似零值,对其作对数比变换后就会出现无穷值,从而影响对数据的进一步分析.提出了一个新的修正EM算法来处理成分数据中的近似零值问题,针对EM算法的缺点对其进行一些改进,即:对EM算法的E步用Monte Carlo方法改进,对EM算法的M步用Lasso算法进行改进.对新的方法进行实证分析,并与基于线性回归的修正EM算法、基于均值插补法和Bootstrap的修正EM算法进行比较研究,验证了该方法的有效性.  相似文献   

12.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

13.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

14.
用Bayesian网络处理具有不完整数据的问题分析   总被引:1,自引:0,他引:1  
针对现有的 Bayesian网络学习方法都不能有效处理缺失数据问题 ,论文给出了两种处理不完整数据问题的方法 :一种方法是先把不完整的数据集修复成完整的数据集 ,利用完整的数据集进行计算 ,并将结果作为不完整数据集对应情况的近似 ;另一种方法是直接使用不完整的数据集进行近似计算 ,而这种近似计算是渐进正确的。实验结果表明前一种方法计算结果准确 ,但效率较低 ;后一种方法效率较高 ,在数据量比较大时能达到很好的效果 ;而且这两种方法的性能比其它处理缺失数据的方法效果要好。  相似文献   

15.
区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。  相似文献   

16.
在许多实际问题的研究中,例如临床试验、民意测验、社会问卷调查等,经常导致数据的缺失,而通常使用的统计方法都需要在样本数据完整的情况下进行.如何处理样本中的缺失数据,使得统计推断得以顺利进行,近年来越来越引起人们的广泛关注.针对响应变量存在缺失时的非线性半参数回归模型Y=f(X,β)+g(T)+ε,研究了参数β的经验似然推断.在一定条件下,分别基于一般借补数据和修正借补数据的情形,得到了关于参数β的对数经验似然统计量渐近服从χ2分布,并由此可以构造出关于参数β的置信域.  相似文献   

17.
谌桢文  常军 《科学技术与工程》2023,23(20):8846-8853
桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补传感器数据中的缺失值,确保桥梁监测数据的完整性。由于不同位置处相同类型传感器的相关性较强,首先利用岭回归(Ridge Regression,RR)解决共线性问题,建立各传感器数据之间的关联,并预测缺失数据。接着引入季节性差分自回归滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA) 方法,利用其样本外预测能力并结合岭回归方法预测桥梁未来运行数据。然后,通过设立预警值实现健康状况预警,以保证桥梁健康运行。最后,将该方法应用于实桥中,验证了其有效性,为传感器数据填补以及预测桥梁未来状态提供了一个有效的预测模型。  相似文献   

18.
当前数据修复方法依据垒球运动学关系,构建模型对垒球绕环式投球动作缺失数据进行修复,需要收集大量的骨骼信息先验知识。提出一种基于稀疏表示的垒球绕环式投球动作缺失数据修复方法,将动作捕获设备贴在垒球运动员关节和末端处,以一定的频率对动作数据进行采集,通过重构获取标记点在三维空间中的位置,以ASFAMC的数据格式对垒球绕环式投球动作数据进行存储,给出垒球绕环式投球动作数据捕获过程。针对某一含有缺失标记的垒球绕环式投球动作帧,求出该帧中未缺失部分在由完整帧构成的字典上的稀疏表示系数,通过该稀疏表示系数与字典对动作帧中的缺失数据进行修复。实验结果表明,所提方法具有很高的修复精度。  相似文献   

19.
一种具有缺失数据的贝叶斯网络结构学习方法   总被引:1,自引:0,他引:1  
在数据缺失的情况下,文章建立的贝叶斯网络结构学习方法BC-ISOR基于界定折叠方法进行变量集联合概率的估计,基于依赖分析的基本思想进行贝叶斯网络的结构学习。该方法的概率估计与数据的缺失率无关,并有效降低了条件独立性检验的次数和阶数,因而具有良好的学习效率并能避免陷入局部最优;针对Asia网络的实验结果表明,该方法比经典方法SEM具有更好地时效性和精确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号