首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

2.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。  相似文献   

3.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

4.
对于缺失数据的处理,通常会采用直接删除缺失数据或者插补数据的方法来得到完整的数据集。多重插补法是对缺失数据集进行多次插补,并且提高数据稳定性的一种较好的缺失数据处理方法。基于多重插补法分析公路安全数据,进而对完整的数据集进行方差估计的比较。经过具体的计算和分析可以得到结论,多重插补法可以得到信息量相对完整的数据集,利用这样的数据集得到的分析结果更加可靠。  相似文献   

5.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

6.
完备的光纤监测数据是智能开采中矿压显现前兆信息识别、上覆岩层变形预测的基础,而实际得到的监测数据大多是不完整的。为有效填补光纤监测数据的缺失值,文中以采场覆岩光纤监测物理模拟实验中光纤传感器采集的数据为基础,分析了缺失数据的特征,建立了多测点单属性小样本缺失数据的最小二乘支持向量机(LSSVM)缺失数据填补方法。并将LSSVM与BP神经网络、3次样条插值等方法,在Fv11,Fv12光纤的6个不同数据集上,按照离散型、连续型、混合型3种数据缺失类型并产生不同缺失率,进行对比实验。针对离散型随机产生20%缺失数据,LSSVM,BP神经网络、3次样条插补方法的均方根误差(RMSE)平均值分别为0.003 2,0.005 6,0.006 9,最大偏离量(MDE)平均值分别为0.012,0.022,0.028;针对连续型随机产生36%缺失数据,3种不同方法的RMSE平均值分别为0.006 1,0.007 7,0.009 0,MDE平均值分别为0.021,0.028,0.041;前2类实验结果表明LSSVM方法均优于其他2种缺失值插补方法。当随机产生兼具离散和连续型缺失且缺失比例不同时,缺失比例小于30%时LSSVM方法略优于其他2种方法,当缺失率大于36%时LSSVM明显优于其他2种方法。综合所有实验结果表明,LSSVM插补方法对单属性小样本缺失数据填补是一种简单有效的填补方法。  相似文献   

7.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

8.
混合式朴素贝叶斯分类模型   总被引:3,自引:0,他引:3  
为了降低朴素贝叶斯分类模型的独立性假设约束,提出一种混合式朴素贝叶斯分类模型(MBN:Mixed Naive Bayes)。通过分析贝叶斯定理,把条件属性集合划分成若干个独立的属性子集,用树增广朴素贝叶斯分类对属性子集分别进行分类学习,通过公式进行整合。将该模型算法与朴素贝叶斯及树增广朴素贝叶斯进行实验比较,实验结果表明MBN分类器在多数数据集上具有较高的分类正确率。  相似文献   

9.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

10.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

11.
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.  相似文献   

12.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

13.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

14.
朴素贝叶斯分类器是一种简单而高效的分类器,但它的条件独立性假设使其无法将属性间的依赖关系表达出来,影响了它分类的正确率,加权朴素贝叶斯是对它的一种扩展.基于强属性限定的贝叶斯分类器SANBC,通过在强弱属性之间添加增强弧以弱化朴素贝叶斯的独立性假设,扩展了朴素贝叶斯分类器的结构;结合加权朴素贝叶斯和基于强属性限定的贝叶斯分类器SANBC的优点,提出一种基于强属性限定的加权贝叶斯分类器WSANBC;实验结果表明,WSANBC分类器具有较高的分类正确率.  相似文献   

15.
朴素贝叶斯算法因其分类精度高、模型简单等优点而被得到普遍应用,但因为它需要具备很强的属性之间的条件独立性假设,使得其在实际分类学习中很难实现.针对这个缺点,提出了一种基于遗传算法的加权朴素贝叶斯分类算法(G_WNB).该算法将遗传算法(GA)与加权朴素贝叶斯分类算法(WNB)相结合,首先使用基于Rough Set的加权朴素贝叶斯分类算法,综合信息论与代数论给出的属性权值求解方法,计算出每个属性的权值,以初始权值作为初始种群,加权朴素贝叶斯的分类正确率为适应度函数,采用遗传算法优选,以使适应度函数最高的权值为数据集的最终权值,最后使用G_WNB进行分类.实验表明,该算法提高了分类准确率,同时提高了朴素贝叶斯分类器的性能.  相似文献   

16.
基于贝叶斯决策树的交通事件持续时间预测   总被引:2,自引:2,他引:0  
采用基于贝叶斯方法的决策树算法,利用上海市中心城区1536个交通事件持续时间数据,建立交通事件持续时间的预测模型.结果表明,事件类型是决策树中的第一层测试属性,不同类型事件的特性属性在决策树中的位置并不相同.并用384个交通事件数据对模型的预测精度进行检验.检验结果表明,抛锚事件持续时间预测误差小于10 min的正确率为79%,而交通事故持续时间预测误差小于20 min的正确率为65%.基于贝叶斯推理的决策树算法比仅基于贝叶斯或仅基于决策树算法的分类精度更高,鲁棒性更强.  相似文献   

17.
针对目前方法对配电网电力系统进行负荷预测时,由于未能在电力负荷预测前对电力数据进行缺失值插补处理,导致该方法存在预测精度差、时间长以及性能差的问题,提出一种基于DE-ELM(Differential Evolution-Extreme Learning Machine)算法的配电网电力系统负荷预测研究方法。首先依据小波变换对电力数据进行去噪处理,根据去噪结果完成电力数据缺失值的插补,获取完整的电力数据集;再将数据集分成训练集与测试集两部分,将全局寻优引入极限学习机,采用DE-ELM算法对训练集进行计算,依据结果建立网络模型;最后将测试集放入构建的模型中进行训练,基于输出结果实现配电网电力系统的负荷预测。实验结果表明,运用该方法进行配电网电力系统负荷预测时,预测精度高、时长短、性能好。  相似文献   

18.
针对交互文本句子短、成分缺失、多领域下类分布不均衡导致的高维、特征值稀疏、正样本稀少的难点,提出面向目标数据集实例迁移的数据层面采样方法。该方法提出目标数据集和源数据集共性特征的Top-N信息增益和值占比函数,选择评价两个数据集实例相似度的特征;提出目标数据集和源数据集特征空间一致性处理方法,克服两者特征空间不一致的问题;提出分领域的实例选取与迁移方法,克服多领域下的类分布不均衡问题。实验结果表明:该方法有效缓解了交互文本的非平衡问题,使支持向量机、随机森林、朴素贝叶斯、随机委员会4个经典分类算法的加权平均的接收者运行特征曲线(receiver operating characteristic,ROC)指标提升了11.3%。  相似文献   

19.
在滑坡地表位移监测过程中,由于设备工作异常或恶劣气候的干扰,原始数据会随机出现长时间序列的缺失,这类数据对滑坡的预警和预测有很大的影响。针对上述问题,提出了一种基于主成分分析(principal component analysis, PCA)和长短期记忆网络(long-short term memory, LSTM)的数据插补方法。首先利用PCA实现滑坡监测数据的降维和特征提取,消除数据间的相关性,然后建立基于LSTM的地表位移监测数据插补模型,对缺失数据进行插补。实验结果表明:该模型与BP(back propagation)神经网络等其他几种机器学习插补模型相比,平均绝对误差、均方根误差和平均绝对百分比误差分别为0.523、1.233和0.009,均优于其他几种模型;该模型能够较好地解决地表位移长时间序列数据缺失的问题。  相似文献   

20.
本文通过分析属性相关性的度量和属性约简,提出一种基于属性相关性度量的朴素贝叶斯分类模型EANBC。实验结果表明,与朴素贝叶斯分类模型相比,EANBC分类模型具有较高的分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号