首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
在机器学习应用中,缺失值填补作为一种预处理技术,能有效提高数据的可用性,然而在缺失值较多或不均衡时,这些技术的效果并不理想.主动学习场景允许机器与用户交互,以获取少量关键数据,提高分类精度.针对主动获取数据量有限的问题,提出基于协同过滤加权预测的主动学习缺失值填补算法(Collaborative Filtering weighted prediction based Active Learning,CFAL).首先采用基于样本和基于属性的协同过滤方法分别预测缺失值;然后根据预测值的差异对数据进行排序,差异大的少量数据进行主动获取,差异小的少量数据利用预测值的平均值进行填补;重复该过程直到主动获取数据达到所给阈值上限,其余缺失值则使用预测值均值填补.实验在七个UCI常用数据集上进行,结果表明,与流行的几种填补算法相比,CFAL算法能更好地提升数据质量,应用于C4.5,kNN等算法能获得更高的分类精度.  相似文献   

2.
针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.  相似文献   

3.
针对传统缺失值检测方法缺少对多维特性数据全面立体的分析及难以从众多缺失值填补算法中选择合适方法的问题,通过设计缺失值检测方法,在目前常见的数据点缺失度基础上,首次提出数据总体缺失度和加权数据总体缺失度的概念,实现对数据集缺失程度的全面检测,进而通过实验对比分析不同缺失值填补方法性能。实验结果表明,在不同缺失度的情况下,不同缺失值填补算法的性能不同,所提出的方法可为缺失值填补算法的选择提供有效依据。  相似文献   

4.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

5.
针对煤与瓦斯突出预测的数据不完整或缺失问题,提出一种基于miss Forest-EGWO-SVM的煤与瓦斯突出预测模型.以淮南地区的实测数据作为研究样本,采用missForest算法对样本数据进行缺失值填补;为解决SVM算法性能受参数影响大的问题,利用高效灰狼算法(EGWO)对SVM进行参数寻优;完善后的数据集作为EGWO-SVM模型的输入进行实验,与其他模型对比.研究结果表明:采用missForest填补缺失数据,提高了模型的突出事故预测率,EGWO-SVM模型能够有效避免GWO在后期搜索中陷入局部最优,进一步提高了SVM的预测精度.研究结论为缺失数据情况下煤与瓦斯突出预测提供了一种途径.  相似文献   

6.
刘肖峰  李云波  董泳  侯回位 《河南科学》2022,(12):1899-1905
大坝变形数据缺失尤其是长期缺失值的存在将影响变形监控模型的精度和可靠性,据此提出了一种基于同源测点信息融合的多尺度大坝长期变形缺失值填补模型.首先,确定与所研究测点具有相似变形特性的测点,分别进行EMD分解;然后,针对研究测点的非高频分量,使用LSTM进行建模;针对高频分量,以同源测点高频分量为依据,构建多变量BP模型;最后,将各模型输出结果进行叠加得到最终填补结果.分析表明,提出的方法有效构建了高频分量的输入组,结合LSTM在中、低频分量分析中的优越性能,大大提高了大坝长期变形缺失值的填补精度.  相似文献   

7.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

8.
双聚类作为一种无监督的学习方法,其作用是对基因表达数据进行分析.为了获取较大容量的双聚类簇,弥补传统的双聚类方法在基因表达数据一致波动性方面的不足,引入粗糙集的上、下近似集概念,将粗糙集理论运用到模糊双聚类算法中,将粗糙上、下近似集与加权均方残差相结合,得到新的粗糙均方残基,进而提出一种基于粗糙均方残基的模糊双聚类算法.针对基因表达数据集,首先进行缺失值填补;其次,用非负矩阵分解算法对基因数据集进行降维;最后,计算数据矩阵的粗糙均方残基,结合综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到容量更大的双聚类结果.实验结果表明,该模糊双聚类算法是有效的.  相似文献   

9.
完备的光纤监测数据是智能开采中矿压显现前兆信息识别、上覆岩层变形预测的基础,而实际得到的监测数据大多是不完整的。为有效填补光纤监测数据的缺失值,文中以采场覆岩光纤监测物理模拟实验中光纤传感器采集的数据为基础,分析了缺失数据的特征,建立了多测点单属性小样本缺失数据的最小二乘支持向量机(LSSVM)缺失数据填补方法。并将LSSVM与BP神经网络、3次样条插值等方法,在Fv11,Fv12光纤的6个不同数据集上,按照离散型、连续型、混合型3种数据缺失类型并产生不同缺失率,进行对比实验。针对离散型随机产生20%缺失数据,LSSVM,BP神经网络、3次样条插补方法的均方根误差(RMSE)平均值分别为0.003 2,0.005 6,0.006 9,最大偏离量(MDE)平均值分别为0.012,0.022,0.028;针对连续型随机产生36%缺失数据,3种不同方法的RMSE平均值分别为0.006 1,0.007 7,0.009 0,MDE平均值分别为0.021,0.028,0.041;前2类实验结果表明LSSVM方法均优于其他2种缺失值插补方法。当随机产生兼具离散和连续型缺失且缺失比例不同时,缺失比例小于30%时LSSVM方法略优于其他2种方法,当缺失率大于36%时LSSVM明显优于其他2种方法。综合所有实验结果表明,LSSVM插补方法对单属性小样本缺失数据填补是一种简单有效的填补方法。  相似文献   

10.
针对民用建筑“四节一环保”原始数据中存在的数据质量问题, 使用多种方法实现数据清洗与数据修复。数据清洗方面, 重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中, 识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面, 重点关注缺失值的填补及基于模型的数据修正。其中, 缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法, 并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型, 拟合建筑运行能耗与各解释变量间的关系, 对上海市建筑运行能耗相关数据进行数据修复。结果显示, 单栋建筑能耗数据适合采用箱线图内限来识别异常记录, 并使用中位数填补缺失数据; 上海市建筑运行能耗相关数据中, 岭回归模型的拟合情况最好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号