首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出加权壳近邻填充缺失数据数学模型,充分利用壳近邻填充选取近邻数据的特性,侧重于被重复选择到的近邻点,有效提高了填充效果. 还提出一种称为goodness的新评价方法,克服了均方根误差(RMSE)的弱点. 实验结果表明,提出的加权壳近邻填充数学模型比一般的近邻填充的效果好,而且goodness评价方法比RMSE更能分辨出填充算法的性能.  相似文献   

2.
利用浮动车数据对交通状态进行挖掘和分析已经是交通领域的重要研究手段之一,而浮动车数据的稀疏性给数据挖掘工作带来了阻碍。对路网数据缺失特性进行分析后,提出了稀疏浮动车数据的填充模型,模型中对缺失小于30%的偶然性数据缺失采用基于朴素贝叶斯(NB)的分类方法进行数据填充,对缺失大于30%的多发性数据缺失采用基于动态时间规整(DTW)的方法进行二次填充,将两种方法结合并应用于路网实例中,对路段缺失的交通流速度数据进行填充,提升了浮动车数据的路网覆盖率,有效降低了浮动车数据缺失对交通流速度信息的采集、发布以及预测工作带来的影响。  相似文献   

3.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

4.
针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.  相似文献   

5.
基于嵌套滑动窗口的数据流缺失数据填充算法   总被引:1,自引:0,他引:1  
提出了一种基于嵌套滑动窗口的缺失数据填充算法.考虑到传感器数据流的时效特性,采用嵌套滑动窗口选取空间相关度高且距离最近的数据作为样本数据,之后分两种情况对缺失数据进行填充.算法首先通过皮尔逊相关计算对数据的空间性进行分析,应用嵌套滑动窗口对缺失数据相关的数据进行采样,得到强相关数据,之后采用MKNN算法进行精确填充.通过皮尔逊相关分析和嵌套窗口采样,极大地降低了数据样本大小,提高了缺失数据处理实时性;对于不具有强的空间相关的缺失数据,考虑到短时间内采集数据间强的时间相关性,采用线性相关法对数据进行填充,降低算法复杂度.实验表明,该算法能够实时、精确地对数据流缺失数据进行填充.  相似文献   

6.
基于关系马尔可夫模型的枚举型缺失值估计   总被引:1,自引:1,他引:0  
针对数据质量中数据缺失问题,提出了基于关系马尔可夫模型(RMM)的枚举型缺失值估计方法.该方法充分考虑属性间的关联性,将动态属性选择(DAS)方法与RMM结合,最大限度地利用完整数据的信息,提高了该方法的估计能力;利用RMM计算源状态到目的状态的转移概率,采用MaxPost和ProProp 2种缺失值填充方法,对缺失值进行填充.采用公认数据集,进行了对比实验,验证了该方法的有效性和优越性.  相似文献   

7.
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测.  相似文献   

8.
刘星毅 《科技信息》2007,(27):418-420
在数据挖掘和机器学习领域,缺失数据经常出现。本文杂合了kNN算法和基于核函数的非参填充方法,实验显示,在处理离散型缺失数据时,我们的这种杂合方法在分类准确率的实验中好于kNN算法以及常用的一些方法(例如C5.0填充方法,最大类方法和不填充的方法),在处理连续型的缺失属性时,我们的方法在预测准确率的实验结果中也好于kNN算法和基于核函数的非参填充方法,以及一些常见方法,(例如均值填充方法)。  相似文献   

9.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

10.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

11.
李金艳  余忠华 《科学技术与工程》2023,23(35):15117-15123
诊断决策过程本质上为信息的处理过程。由于信息结构的复杂性和采集的局限性使得获取的信息存在缺失、模糊、冗余等不完备现象,从而影响诊断的准确性。为此,对条件属性冗余、部分数据值缺失情形下,如何提高被诊断信息的完备性开展讨论,试图通过问题聚类探寻诊断决策所需的隐含规则,提出信息补齐与属性约简的知识挖掘方法:首先,针对Roustida算法在缺失值处理时存在的局限性进行改进,扩充其在工程实践中的适用范围,使缺损信息趋于完整;然后,利用遗传算法和广义诊断规则推理实现条件属性约简和规则凝练;最后,以质量问题诊断为对象进行了案例研究,测试样本诊断结果覆盖度 ,验证了不完备信息条件下该方法可以实现以相对较简方式表达问题与情境信息之间的关联关系,挖掘问题发生的隐含规律。  相似文献   

12.
分析了在含有遗失值的数据集上如何进行有效的数据填补,以便更客观地反映数据集中数据所隐含的内在联系.通过采用粗糙集理论的有关思想和方法,用相似关系代替粗糙集理论中的不可分辨关系,提出了基于相似关系的填充算法,提高了遗失数据填补的精确度.数据实验表明了该方法的有效性和可行性.  相似文献   

13.
用Bayesian网络处理具有不完整数据的问题分析   总被引:1,自引:0,他引:1  
针对现有的 Bayesian网络学习方法都不能有效处理缺失数据问题 ,论文给出了两种处理不完整数据问题的方法 :一种方法是先把不完整的数据集修复成完整的数据集 ,利用完整的数据集进行计算 ,并将结果作为不完整数据集对应情况的近似 ;另一种方法是直接使用不完整的数据集进行近似计算 ,而这种近似计算是渐进正确的。实验结果表明前一种方法计算结果准确 ,但效率较低 ;后一种方法效率较高 ,在数据量比较大时能达到很好的效果 ;而且这两种方法的性能比其它处理缺失数据的方法效果要好。  相似文献   

14.
缺损属性的补充方法——迭代MVC   总被引:1,自引:0,他引:1  
迭代MVC法是一种基于关联规则推导的缺损属性补充方法,通过RAR(Robust Association Rules)算法产生候选关联规则,使用补充关联规则选择策略和用户的交互选出补充关联规则,进行缺损属性的补充,减少补充属性的噪音引入,提高数据补充的正确度,增强数据挖掘的精确度。  相似文献   

15.
个性化推荐系统中遗漏值处理方法的研究   总被引:2,自引:0,他引:2  
为了高效地解决协同过滤算法中的遗漏值问题,而不是简单地用缺省值加以代替,提出了一种新的、在协同过滤中的遗漏值处理方法.其基本思想是,先利用具有最小方差的局部主成分,把包含有遗漏值的不完备数据集划分成多个模糊聚类,然后通过求解广义逆矩阵来获得各个子聚类的主成分,最终在局部主成分的基础上通过简单的线性方程模型去估计聚类中的遗漏值.实验表明,这种方法的优点是低内存需求,具有较小的平均绝对偏差值,并且显示出了比传统推荐算法更好的推荐质量.  相似文献   

16.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

17.
由于战场环境的高复杂性,侦察方难于获取目标辐射源的完备信息.为解决传统辐射源威胁评估算法不适用于数据缺失情况的问题,引入诱导有序加权平均算子空值估计算法,与逼近理想解排序法相结合,采用CV-G1法赋权,构建数据缺失下基于IOWA-TOPSIS的辐射源威胁评估模型.首先,利用IOWA算子估算空值,解决数据缺失问题;然后,利用基于变异系数法改进的G1法实现对各属性的组合赋权;最后,通过TOPSIS算法对辐射源威胁度进行排序.仿真验证了算法的有效性,该方法拓展了TOPSIS算法使用范围,实现数据缺失情况下的辐射源威胁评估.  相似文献   

18.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

19.
具有连续属性的不完备信息系统Rough集扩展   总被引:1,自引:0,他引:1  
在模糊相似关系的基础上,针对具有连续属性的不完备信息系统提出了Rough集的扩展模型;利用模糊区间数来表示不完备信息表中缺失的连续属性值,并根据属性值的概率分布情况计算模糊区间数的可能度,在模糊关系的基础上给出了不完备信息表的上近似和下近似的定义;利用基于欧氏距离的贴近度法计算模糊相似度,构造相似矩阵,实现了对论域的划分;给出决策规则的约简和表示方法,应用实例说明了所提出的Rough集模型及规则的实用性。  相似文献   

20.
为了体现词条之间的关系,更好地为用户提供个性化服务,提出了在语义网络下对用户兴趣建模的思想. 根据用户的访问历史,利用知网建立基于概念关系的用户兴趣森林模型. 通过计算机链接描述文字的平均带权语义距离,预取用户将来可能访问的Web页. 基于带权语义距离的网页预取方法对用户兴趣进行归纳,用带权语义距离反映词与词之间的概念关系. 实验结果表明,此方法的命中率较高,漏取率较低,平均命中率可以达到61%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号