首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

2.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

3.
为提高燃烧效率及降低污染排放,基于运行数据的建模与优化是一种有效途径,但现场运行数据因传感器故障或传输失败等原因不可避免地存在缺失值,进而导致信息不完备,无法直接进行建模与优化.针对这一问题,采用一种基于时间相关性的缺失值填补算法,基于线性插值原理对平稳运行过程的缺失数据进行填补;针对非平稳运行工况,提出一种类平均值填补算法,并对其分类结果进行加权修正,进一步提高填补准确性;在此基础上,提出一种基于遗传算法的自适应加权类平均值填补方法,并在实际数据上进行测试分析,结果表明该方法具有更高的填补准确率.  相似文献   

4.
QENNI:一种缺失值填充的新方法   总被引:1,自引:0,他引:1  
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。另外,此算法对于低维数据集可以是无参的,即消除了对参数的依赖。实验结果表明,QENNI算法的填充准确性要优于kNNI算法。  相似文献   

5.
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。  相似文献   

6.
为解决肿瘤基因表达谱数据后续研究需要完整数据矩阵的问题,针对包含缺失点的数据集。提出基于矩阵填充(matrix completion)与模糊C均值(fuzzy c-means algorithm,FCM)相结合的缺失点估计方法(FCM_MC)。该方法充分利用肿瘤基因表达谱数据的冗余信息,通过模糊C均值聚类得到具有良好的低秩特性的基因语义片段,再利用矩阵填充方法分别对每个语义片段进行缺失点的重建。在不同数据集上进行实验,与传统缺失点估计算法比较。实验表明FCM_MC算法在缺失数据估计准确度和类结构保持度上效果得到有效提升,同时运行效率较高。  相似文献   

7.
传感器节点监测数据缺失会影响核电站外围环境辐射监测的有效性,需要对缺失数据进行准确估计.提出一种基于支持向量机的监测数据缺失值估计算法,对传感器节点缺失监测数据进行估计.用实际监测数据对算法进行了验证,用均方误差和相关系数评价实验结果.并与现有的基于神经网络的估计算法进行了性能比较.实验结果表明,本文所提出的算法具有较高的估计精度.  相似文献   

8.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

9.
相位差变化率定位法中缺失值精确填补研究   总被引:1,自引:0,他引:1  
采用目标信号相位差和载频为观测量,利用相位差变化率定位算法对目标进行定位时,由于条件限制和外界干扰,侦察系统会丢失某些观测数据,导致定位精度迅速下降。为此,提出利用最小二乘多项式曲线拟合法填补观测数据的缺失值,再进行定位解算。该方法不仅具有较精确的填补能力,而且不受缺失值分布情况的限制,保证了测量值的完整性和准确性,实现了相位差变化率定位法的快速高精度定位。仿真结果表明,该方法在5 s内的相对定位误差为2.14%。  相似文献   

10.
针对不完备信息系统,提出缺失比概念.用缺失比表示待填充样本中缺失数据和剩余数据对决策结果的影响能力的大小,进而根据缺失比选择使用的约简,然后通过填充矩阵寻找缺失数据的最大可能值.采用对Rough集进行扩充和数据填补相结合的决策表数据补齐方法.试验结果表明该方法有较好效果.  相似文献   

11.
领域知识形式背景是描述某个学科领域中概念及概念间关系的重要知识载体,在很大程度上决定了知识表达的规模和精确程度。本文针对临床诊断领域形式背景中知识表示的完备与精简问题,以高血压疾病为载体,综合考虑概念格内对象与属性间的不同层次关系,区别对待具有不同重要性的背景属性,提出形式背景属性约简理论与方法,给出消除背景冗余的Ⅱ度规范理论,并在此基础上寻找到解决形式背景缺值的满值化方法。  相似文献   

12.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

13.
给出了一种解决估计方程中的缺失数据问题的新方法:用一种观测数据的函数来调整缺失数据的函数.当我们对于缺失机制的信息知道的越多,由此种方法得到的估计的效越高.  相似文献   

14.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

15.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

16.
利用logit模型刻画了缺失指示变量R的分布,由其分布的参数估计来判定数据的缺失机制类型.在四个假定的基础上,用五个步骤具体操作缺失数据的机制检验.并用两个例子说明了检验的具体步骤.  相似文献   

17.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

18.
个性化推荐系统中遗漏值处理方法的研究   总被引:2,自引:0,他引:2  
为了高效地解决协同过滤算法中的遗漏值问题,而不是简单地用缺省值加以代替,提出了一种新的、在协同过滤中的遗漏值处理方法.其基本思想是,先利用具有最小方差的局部主成分,把包含有遗漏值的不完备数据集划分成多个模糊聚类,然后通过求解广义逆矩阵来获得各个子聚类的主成分,最终在局部主成分的基础上通过简单的线性方程模型去估计聚类中的遗漏值.实验表明,这种方法的优点是低内存需求,具有较小的平均绝对偏差值,并且显示出了比传统推荐算法更好的推荐质量.  相似文献   

19.
钢结构施工过程监测数据缺失机理与处理方法   总被引:1,自引:1,他引:0  
分析并总结了钢结构施工过程监测中缺失数据的成因及特征,依据缺失数据形成机制将缺失数据分为三类.根据不同类型和特征的缺失数据,提出了基于最小二乘原理以回归分析理论为基础的数据补偿方法.通过对大同美术馆屋盖钢结构和"生命之环"钢结构施工过程监测数据的分析处理与比较,验证了该方法的有效性,说明了该方法的实用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号