首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
对于缺失数据的处理,通常会采用直接删除缺失数据或者插补数据的方法来得到完整的数据集。多重插补法是对缺失数据集进行多次插补,并且提高数据稳定性的一种较好的缺失数据处理方法。基于多重插补法分析公路安全数据,进而对完整的数据集进行方差估计的比较。经过具体的计算和分析可以得到结论,多重插补法可以得到信息量相对完整的数据集,利用这样的数据集得到的分析结果更加可靠。  相似文献   

2.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

3.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

4.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

5.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

6.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

7.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

8.
基于关系马尔可夫模型的枚举型缺失值估计   总被引:1,自引:1,他引:0  
针对数据质量中数据缺失问题,提出了基于关系马尔可夫模型(RMM)的枚举型缺失值估计方法.该方法充分考虑属性间的关联性,将动态属性选择(DAS)方法与RMM结合,最大限度地利用完整数据的信息,提高了该方法的估计能力;利用RMM计算源状态到目的状态的转移概率,采用MaxPost和ProProp 2种缺失值填充方法,对缺失值进行填充.采用公认数据集,进行了对比实验,验证了该方法的有效性和优越性.  相似文献   

9.
电网历史数据是智能电网信息化发展的基础,确保历史数据的完整非常必要。在分析电网数据采集与传输过程中产生数据缺失原因的基础上,对缺失数据进行了类型划分,并给出了发现和判定数据缺失的方法。根据数据缺失类型,采用缺失数据清洁法和缺失数据补录法处理规律缺失数据和不规律缺失数据,使用SPSS验证上述方法,结果表明补录准确度高达90%;运用随机森林算法处理不完全规律缺失数据,以均方根误差和填补准确度为评判指标,实验结果证明了该方法的准确性和有效性。用这些方法处理电网的数据缺失问题,能有效地提高电网历史数据的质量,使现有的数据得到最大程度的利用。  相似文献   

10.
为解决肿瘤基因表达谱数据后续研究需要完整数据矩阵的问题,针对包含缺失点的数据集。提出基于矩阵填充(matrix completion)与模糊C均值(fuzzy c-means algorithm,FCM)相结合的缺失点估计方法(FCM_MC)。该方法充分利用肿瘤基因表达谱数据的冗余信息,通过模糊C均值聚类得到具有良好的低秩特性的基因语义片段,再利用矩阵填充方法分别对每个语义片段进行缺失点的重建。在不同数据集上进行实验,与传统缺失点估计算法比较。实验表明FCM_MC算法在缺失数据估计准确度和类结构保持度上效果得到有效提升,同时运行效率较高。  相似文献   

11.
一种基于小数据集的贝叶斯网络学习方法   总被引:1,自引:0,他引:1  
 贝叶斯网络是用来表示不确定变量集合联合分布的图形模型,反映了变量间潜在的依赖关系.从完备数据集和不完备数据集上学习贝叶斯网络是研究的热点之一,要求有大数据集.针对实际应用中常常只能获得小样本数据,提出了基于Bootstrap抽样的网络结构学习的遗传算法,实验结果表明该方法在小数据集上学习贝叶斯网络具有一定的有效性.  相似文献   

12.
贝叶斯网络的建造及其在数据采掘中的应用   总被引:40,自引:0,他引:40  
贝叶斯 (Bayesian)网络近年成为数据采掘引人注目的研究方向。通过剖析 Bayesian网络的结构和建造步骤 ,着重讨论用 Bayesian方法从先验信息和样本数据进行学习以确定网络的结构和概率分布的基本方法 ,分析 Bayesian网络学习的特点 ,探讨 Bayesian网络的适用性。与数据采掘的其它方法相比 ,Bayesian网络的优点是可以综合先验信息和样本信息 ,这在样本难得时特别有用 ;可以发现数据之间的因果关系 ,适合于处理不完整数据集 ,这是其它模型难以做到的。其缺点是计算开销较大 ;确定合理的先验密度比较困难 ;如何判定实际问题是否满足所要求的假设 ,没有现成的规则  相似文献   

13.
一种具有缺失数据的贝叶斯网络结构学习方法   总被引:1,自引:0,他引:1  
在数据缺失的情况下,文章建立的贝叶斯网络结构学习方法BC-ISOR基于界定折叠方法进行变量集联合概率的估计,基于依赖分析的基本思想进行贝叶斯网络的结构学习。该方法的概率估计与数据的缺失率无关,并有效降低了条件独立性检验的次数和阶数,因而具有良好的学习效率并能避免陷入局部最优;针对Asia网络的实验结果表明,该方法比经典方法SEM具有更好地时效性和精确性。  相似文献   

14.
在贝叶斯网络学习中,合理数据集的存在可以大大降低贝叶斯网络学习对知识工程的过多依赖.但当数据集中样本数量不够大时,可能没有足够多的样本甚至不存在样本来代表变量间的某些条件独立关系,从而无法学习贝叶斯网络.将数据集修正与结构化-期望最大化算法相结合,得到一种有效的小样本上贝叶斯网络学习的方法,实验结果表明,该方法能够有效地进行小样本上贝叶斯网络学习.  相似文献   

15.
贝叶斯网结构学习的研究现状及发展趋势   总被引:4,自引:0,他引:4  
目前,在结构已知情况下,贝叶斯网的参数学习算法及数据完备时的贝叶斯网的结构学习算法比较成熟,但是从不完全数据中学习贝叶斯网结构比较困难;文章简要介绍前者,重点分析了在不完备数据条件下结构学习的难点,对现有的学习算法进行了深入的研究和比较,对该领域的研究趋势进行了展望。  相似文献   

16.
李志青 《科技信息》2013,(11):102-104
为了提高IP业务的服务质量,利用告警等症状和已有知识快速准确地定位根故障十分重要。基于贝叶斯网络的不确定推理方法是近年来广泛应用的一种故障诊断方法。目前,基于静态贝叶斯网络的故障定位只是利用当前信息进行故障诊断,无法处理时间信息;而已有基于动态贝叶斯网络的诊断算法复杂度太高,不适用于大型网络。本文针对大型IP网络,建立用于故障诊断的动态贝叶斯模型,并对基于动态贝叶斯网络的一种通用的精确算法进行改进,实验证明它能够对大型IP网络快速准确的定位故障。本文方法充分利用告警库中的历史数据和当前症状信息,对当前的系统状态进行估计,完成故障诊断。  相似文献   

17.
在非时齐马氏决策过程中的动态贝叶斯网络研究   总被引:3,自引:0,他引:3  
提出了用动态贝叶斯网络(DBN)对非时齐马氏决策系统进行建模的改进方法,使动态贝叶斯网络能被更广泛地应用于各种复杂的真实系统中.该方法的基本思路是,将扩展后的隐藏变量引入DBN的演化过程来建立假设条件所要求的马尔可夫模型,给出从不完整的样本数据集以及存在隐藏变量时来学习DBN结构的算法,进而用贝叶斯概率统计方法对后来的时间片的充分统计因子进行估计,并通过当前已存在的和估计的充分统计因子对基于时间变化的转移概率进行学习,以解决假设条件要求的转移概率的时不变性.原理性分析和仿真实验结果也验证了改进方法的有效性.  相似文献   

18.
贝叶斯网络中的贝叶斯学习   总被引:1,自引:0,他引:1       下载免费PDF全文
从机器学习的角度研究贝叶斯方法及其学习机制,着重讨论了具有完整数据,不完整数据集,及在结构不确定时贝叶斯网络进行学习的方法,表明贝叶斯网络在数据采掘中是一个有力的工具。文中给出一个基于贝叶斯网络的学习的实例。  相似文献   

19.
基于Bayesian网络的缺损数据处理方法   总被引:2,自引:0,他引:2  
总结了处理缺损数据的几种方法 ,并提出一种基于 Bayesian网络的缺损数据处理方法。Bayesian网络能够将样本数据和先验信息有效地结合起来。最后通过一个实例验证了该方法的有效性和正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号