共查询到19条相似文献,搜索用时 64 毫秒
1.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性. 相似文献
2.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。 相似文献
3.
刘宝慧 《甘肃联合大学学报(自然科学版)》2009,23(1)
利用无回答所提供的信息采用最小二乘估计给出了缺失数据情形下的目标变量的一种回归插补及其方差估计.在仅目标变量缺失数据情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)pxp2i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(XTX)-1XT1.在辅助变量部分缺失且目标变量缺失的情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)p1xp12i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(X*TX*)-1XT1. 相似文献
4.
5.
统计调查表缺失数据插补效果的实证分析 总被引:1,自引:0,他引:1
针对统计调查表的实际数据,对其缺失数据进行了常用插补方法的实证分析.首先,实证分析了一维模型的局限性及缺点;其次,分别对决策树模型、神经网络模型、关联规则模型算法,在对输入(预测)变量进行系统优化基础上,统计插补的准确率,比较优劣;最后,提出了提高插补准确率的一个值得进一步研究的方向. 相似文献
6.
谢坤武 《湖北民族学院学报(自然科学版)》2009,27(3)
当处理的半结构数据时,从中挖掘出其隐含的结构显得愈来愈重要了,不仅对于用户而且对于整个系统来说,其重要性也是不言而喻的.算法structure_discovery将聚类算法应用到半结构化数据的结构发现上,将描述同一类对象的共有结构按照相似度聚集到一起形成类,然后从类中发现满足用户兴趣度的结构.与同类算法比较,structure_discovery为增量式算法,同时,聚类技术的使用提高了结构发现效率. 相似文献
7.
8.
9.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能. 相似文献
10.
李小展 《东莞理工学院学报》2011,18(1):29-32
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献
11.
在许多实际问题的研究中,例如临床试验、民意测验、社会问卷调查等,经常导致数据的缺失,而通常使用的统计方法都需要在样本数据完整的情况下进行.如何处理样本中的缺失数据,使得统计推断得以顺利进行,近年来越来越引起人们的广泛关注.针对响应变量存在缺失时的非线性半参数回归模型Y=f(X,β)+g(T)+ε,研究了参数β的经验似然推断.在一定条件下,分别基于一般借补数据和修正借补数据的情形,得到了关于参数β的对数经验似然统计量渐近服从χ2分布,并由此可以构造出关于参数β的置信域. 相似文献
12.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。 相似文献
13.
一种具有缺失数据的贝叶斯网络结构学习方法 总被引:1,自引:0,他引:1
在数据缺失的情况下,文章建立的贝叶斯网络结构学习方法BC-ISOR基于界定折叠方法进行变量集联合概率的估计,基于依赖分析的基本思想进行贝叶斯网络的结构学习。该方法的概率估计与数据的缺失率无关,并有效降低了条件独立性检验的次数和阶数,因而具有良好的学习效率并能避免陷入局部最优;针对Asia网络的实验结果表明,该方法比经典方法SEM具有更好地时效性和精确性。 相似文献
14.
针对缺失数据下线性泛函估计中存在的非参数高维问题和模型参数化后的稳健性问题,提出了线性泛函估计的半参数降维推断方法,通过非参数函数估计来插补线性泛函,井用参数工作函数来降维.所得半参数降维估计具有双稳健的特点,即只要选择概率函数正确参数化或者降维插补指标可以修复线性函数的条件期望,所得估计就是相合的,而且二者都满足时,估计达到最优. 相似文献
15.
分析了在含有遗失值的数据集上如何进行有效的数据填补,以便更客观地反映数据集中数据所隐含的内在联系.通过采用粗糙集理论的有关思想和方法,用相似关系代替粗糙集理论中的不可分辨关系,提出了基于相似关系的填充算法,提高了遗失数据填补的精确度.数据实验表明了该方法的有效性和可行性. 相似文献
16.
面向通用数据资源,研究聚类数据可视化方法与技术,旨在探索有效的数据处理方法,满足信息领域对高维数据处理的要求。通过对高维数据进行降维处理和可视化映射实现,建立K均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。利用加利福利亚大学欧文分校(UCI)数据库中的Iris数据集、Wine数据集、Seeds数据集对可视化系统模型方法进行测试。结果表明,该模型实现了对数据集的有效聚类,能够将中间聚类、聚类中心、收敛准则函数值进行实时有效的可视化表达,达到了预期效果。 相似文献
17.
分析量子势能、量子力学中粒子分布机制和针对分类属性数据的量子聚类CQC算法,发现该算法采用传统的Hamming相异性测度计算分类属性数据间的相异性测度,忽略分类属性取值自身的涵义和值间的特征关联,导致其聚类准确性较差.提出一种改进的MCQC算法,能根据数据对象的关联情况计算同属性不同值间的相异性,计算数据对象间的相异性测度,从而提高聚类准确率.仿真实验采用3个数据集,即:大豆疾病、国会投票真实数据集和从KDD-CUP99训练样本集抽取离散属性维构成的人造样本集.实验结果表明,该算法是有效且可行的,对分类属性、二值属性和混合属性数据的聚类准确率明显高于CQC算法. 相似文献
18.
XU Junling XU Baowen ZHANG Weifeng CUI Zifeng ZHANG Wei 《武汉大学学报:自然科学英文版》2007,12(5):912-916
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method. 相似文献
19.
孙晓松 《山东理工大学学报:自然科学版》2009,23(2):51-54
利用logit模型刻画了缺失指示变量R的分布,由其分布的参数估计来判定数据的缺失机制类型.在四个假定的基础上,用五个步骤具体操作缺失数据的机制检验.并用两个例子说明了检验的具体步骤. 相似文献