首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 78 毫秒
1.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

2.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。  相似文献   

3.
聚类是机器学习和数据挖掘中的重要课题。近年来,深度神经网络(Deep Neural Networks,DNN)在各种聚类任务中受到广泛关注。特别是半监督聚类,在大量无监督数据中仅引入少量先验信息即可显著提高聚类性能。然而,这些聚类方法忽略了定义的聚类损失可能破坏特征空间,从而导致非代表性的无意义特征。针对现有半监督深度聚类的特征学习过程中局部结构保持有所欠缺的问题,本文提出一种改进的半监督深度嵌入聚类(Improved Semi-supervised Deep Embedded Clustering,ISDEC)算法,采用欠完备自动编码器在特征表达学习的同时,保持数据的内在局部结构;通过综合聚类损失、成对约束损失和重构损失,对聚类标签分配和特征表达进行联合优化。在包括基因数据在内的若干高维数据集上的实验结果表明,本方法的聚类性能比现有方法更好。  相似文献   

4.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

5.
利用无回答所提供的信息采用最小二乘估计给出了缺失数据情形下的目标变量的一种回归插补及其方差估计.在仅目标变量缺失数据情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)pxp2i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(XTX)-1XT1.在辅助变量部分缺失且目标变量缺失的情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)p1xp12i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(X*TX*)-1XT1.  相似文献   

6.
对于抽样调查中经常出现的无回答数据,在均匀回答机制下,给出了两个辅助变量下目标变量缺失数据的回归插补模型。对于多个辅助变量的情形,可按上述方法进行目标变量的回归插补。  相似文献   

7.
8.
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。  相似文献   

9.
统计调查表缺失数据插补效果的实证分析   总被引:1,自引:0,他引:1  
针对统计调查表的实际数据,对其缺失数据进行了常用插补方法的实证分析.首先,实证分析了一维模型的局限性及缺点;其次,分别对决策树模型、神经网络模型、关联规则模型算法,在对输入(预测)变量进行系统优化基础上,统计插补的准确率,比较优劣;最后,提出了提高插补准确率的一个值得进一步研究的方向.  相似文献   

10.
针对深度嵌入聚类方法仅考虑类内关系及多视图聚类存在特征表示不足等问题,提出一种基于类间损失和多视图特征融合的深度嵌入聚类方法,该方法在深度嵌入聚类的损失函数中引进一个新的正则项提高类判别性.先通过自动编码器提取多视图数据的特征表示,对不同视图的特征表示进行融合得到公共表示,基于此得到数据的软分配分布和辅助目标分布;再对公共表示和聚类分配进行联合优化得到最终的聚类结果.在多视图数据集上的实验结果表明,该方法能有效提高聚类性能.  相似文献   

11.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

12.
嵌入式移动病历系统是物联网环境下医院无线移动诊疗实现的关键,其相关信息的存储与表示是医院无线移动诊疗的核心内容.分析了嵌入式移动病历存储信息的内容,搭建并设计了该平台下的PML信息服务器,最后给出了一个具体的嵌入式移动病历的PML表示实例及在PML信息服务器上的相关查询示例,为后续物联网环境下移动病历应用平台的开发以及将来医院物联网的实施奠定了基础  相似文献   

13.
在滑坡地表位移监测过程中,由于设备工作异常或恶劣气候的干扰,原始数据会随机出现长时间序列的缺失,这类数据对滑坡的预警和预测有很大的影响。针对上述问题,提出了一种基于主成分分析(principal component analysis, PCA)和长短期记忆网络(long-short term memory, LSTM)的数据插补方法。首先利用PCA实现滑坡监测数据的降维和特征提取,消除数据间的相关性,然后建立基于LSTM的地表位移监测数据插补模型,对缺失数据进行插补。实验结果表明:该模型与BP(back propagation)神经网络等其他几种机器学习插补模型相比,平均绝对误差、均方根误差和平均绝对百分比误差分别为0.523、1.233和0.009,均优于其他几种模型;该模型能够较好地解决地表位移长时间序列数据缺失的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号