首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

2.
本文提出一种基于信息增益的加权贝叶斯插补法(WBIIG),通过加入属性权重,使得属性对插补顺序的影响被考虑到模型中,实现对基于信息增益的贝叶斯插补法的优化,分别在3种缺失类型(完全随机缺失、随机缺失、非随机缺失)的心脏病类医疗数据集上进行实验验证。结果显示,在多数情形下,WBIIG对3种心脏病类医疗缺失数据集插补后得到的插补精度和分类预测正确率高于基于信息增益的贝叶斯插补法(BIIG)。本文提出的方法能够有效提升缺失值插补的准确性以及对插补后缺失数据的分类预测正确率。  相似文献   

3.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.  相似文献   

4.
数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题.常用的插补模型有参数模型、非参数模型和半参数模型,其中关于半参数模型的研究较少,考虑到半参数模型的优越性,文章将半参数回归模型与插补方法相结合,利用最小二乘核估计构建半参数模型,再利用辅助变量对目标变量进行估计来建立缺失数据的插补数据集,进而实现缺失数据的插补,并通过案例探究该方法的实现及其可行性.  相似文献   

5.
对于缺失数据的处理,通常会采用直接删除缺失数据或者插补数据的方法来得到完整的数据集。多重插补法是对缺失数据集进行多次插补,并且提高数据稳定性的一种较好的缺失数据处理方法。基于多重插补法分析公路安全数据,进而对完整的数据集进行方差估计的比较。经过具体的计算和分析可以得到结论,多重插补法可以得到信息量相对完整的数据集,利用这样的数据集得到的分析结果更加可靠。  相似文献   

6.
首先, 用条件最小二乘方法讨论缺失数据下MGINAR(p)模型的参数估计问题, 得到了参数的条件最小二乘估计. 其次, 模拟验证4种处理缺失数据方法的可行性并比较估计效果, 模拟结果表明: 当缺失概率较小时, 可使用个案剔除法或均值插补法; 当缺失概率较大时, 可使用桥插补法, 以降低估计偏差.  相似文献   

7.
针对缺失数据下线性泛函估计中存在的非参数高维问题和模型参数化后的稳健性问题,提出了线性泛函估计的半参数降维推断方法,通过非参数函数估计来插补线性泛函,井用参数工作函数来降维.所得半参数降维估计具有双稳健的特点,即只要选择概率函数正确参数化或者降维插补指标可以修复线性函数的条件期望,所得估计就是相合的,而且二者都满足时,估计达到最优.  相似文献   

8.
应用EM算法的思想在双参数逻辑斯蒂克模型下对存在缺失数据的参数估计方法和恢复缺失数据的统计插补方法进行研究.蒙特卡洛模拟和实证研究结果表明,在进行统计插补恢复缺失数据时,该方法使得估计结果比较理想:联合极大似然估计与EM算法相结合,先估计参数,再填补缺失值,再估计,再填补,直到似然函数值稳定.  相似文献   

9.
在滑坡地表位移监测过程中,由于设备工作异常或恶劣气候的干扰,原始数据会随机出现长时间序列的缺失,这类数据对滑坡的预警和预测有很大的影响。针对上述问题,文章提出一种基于主成分分析(principal component analysis,PCA)和长短期记忆网络(long short -term memory,LSTM)的数据插补方法。首先利用PCA实现滑坡监测数据的降维和特征提取,消除数据间的相关性,然后建立基于LSTM的地表位移监测数据插补模型,对缺失数据进行插补。实验结果表明:该模型与BP(Back Propagation,BP)神经网络等其他几种机器学习插补模型相比,平均绝对误差、均方根误差和平均绝对百分比误差分别为0.523、1.233和0.009,均优于其他几种模型;该模型能够较好的解决地表位移长时间序列数据缺失的问题。  相似文献   

10.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

11.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

12.
针对传统储层流体识别方法识别精度低、运算量大、过于依赖个人经验的缺点,提出基于密度聚类的K近邻法,根据待测层段测井数据的空间分布规律,将样本按相对密度聚类成数据簇,并利用K近邻投票获得各簇所属类别。将该方法应用在某油田奥陶系鹰山组碳酸盐岩储层识别中。结果表明,较之其他常用识别方法,该算法识别精度高,泛化性和鲁棒性强,在处理大数据分类问题时具有明显优势,且在识别常规方法难以识别的油水同层时取得了较好的效果,具有良好的应用前景,为利用数据挖掘方法解决油田勘探开发中的复杂问题提供了新思路。  相似文献   

13.
针对毫米波雷达数据均匀性差,数据量小,噪点多等问题,提出一种基于DBSCAN (density-based spatial clustering of applications with noise)的雷达自适应聚类算法.改进算法能够根据K近邻距离和目标反射截面自适应调整聚类半径.首先给出一种聚类半径根据K近邻距离动态调整的机制:目标第K个近邻的距离与阈值相比较,以确定阈值半径取值.再提取雷达提供的目标反射截面,基于该值计算目标假象半径作为聚类半径的补充量.实现根据目标反射截面与数据稀疏程度自适应聚类的效果.将改进算法与不同参数的DBSCAN聚类算法在真实雷达点云数据进行实验对比.相较于选取合适参数的DBSCAN算法,改进算法能够更好适应毫米波雷达点云特征,对行人目标识别准确率提高4.18%,对车辆目标识别准确率提高5.63%.  相似文献   

14.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

15.
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN.  相似文献   

16.
Blast furnace data processing is prone to problems such as outliers. To overcome these problems and identify an improved method for processing blast furnace data, we conducted an in-depth study of blast furnace data. Based on data samples from selected iron and steel companies, data types were classified according to different characteristics; then, appropriate methods were selected to process them in order to solve the deficiencies and outliers of the original blast furnace data. Linear interpolation was used to fill in the divided continuation data, the K-nearest neighbor (KNN) algorithm was used to fill in correlation data with the internal law, and periodic statistical data were filled by the average. The error rate in the filling was low, and the fitting degree was over 85%. For the screening of outliers, corresponding indicator parameters were added according to the continuity, relevance, and periodicity of different data. Also, a variety of algorithms were used for processing. Through the analysis of screening results, a large amount of efficient information in the data was retained, and ineffective outliers were eliminated. Standardized processing of blast furnace big data as the basis of applied research on blast furnace big data can serve as an important means to improve data quality and retain data value.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号