首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

2.
应用EM算法的思想在双参数逻辑斯蒂克模型下对存在缺失数据的参数估计方法和恢复缺失数据的统计插补方法进行研究.蒙特卡洛模拟和实证研究结果表明,在进行统计插补恢复缺失数据时,该方法使得估计结果比较理想:联合极大似然估计与EM算法相结合,先估计参数,再填补缺失值,再估计,再填补,直到似然函数值稳定.  相似文献   

3.
针对选择Gap Statistic(GS)方法估计聚类数能够得到数据集的粗略分类,但不能进一步对数据集进行细分类这一问题,对GS方法进行改进;将Gap统计量引入到ISODATA算法中,提出了IGS模型;实证表明,IGS模型不仅可以实现数据的细分类,而且通过IGS模型估计数据集的最佳分类数准确率明显高于原GS模型。  相似文献   

4.
煤与瓦斯突出是煤矿事故发生的主要原因.正确预测煤与瓦斯突出,对于煤炭企业安全生产具有重要意义.对和煤与瓦斯突出相关的5个特征进行分析,采用拉依达准则处理数据异常值.针对数据变量缺失的情况,选择具有代表性的均值插补、多重插补、K近邻插补和随机森林插补方法完成数据插补.采用随机森林、支持向量机和K近邻模型进行煤与瓦斯突出预...  相似文献   

5.
数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题.常用的插补模型有参数模型、非参数模型和半参数模型,其中关于半参数模型的研究较少,考虑到半参数模型的优越性,文章将半参数回归模型与插补方法相结合,利用最小二乘核估计构建半参数模型,再利用辅助变量对目标变量进行估计来建立缺失数据的插补数据集,进而实现缺失数据的插补,并通过案例探究该方法的实现及其可行性.  相似文献   

6.
单细胞RNA测序(scRNA-seq)数据插补方法用于解决scRNA-seq数据观测中存在的大量“漏失”(dropout)噪音,改善下游分析,scRNA-seq数据插补方法设计是单细胞数据研究的热点方向之一.本文首先对20种主要的scRNA-seq数据插补方法进行介绍,包括基于模型的插补方法(6种)、基于平滑的插补方法(3种)、基于深度学习的插补方法(8种)和基于低秩矩阵的插补方法(3种),分析了各类方法的优势和缺点;其次,简要综述了插补方法比较研究的相关成果;然后,针对4种下游数据分析评估了以上方法(除scGNN外)的性能;最后,分析目前scRNAseq插补所面临的挑战,并指出新的研究方向.  相似文献   

7.
选取内蒙古某一风电场为研究区,在对本场风机、测风塔测风数据进行质控后,按照不同月、风向对风机风速进行相关性分析,划分出风机轮毂高度风速高相关片区16类.以片区的某一台风机为例,统计该风机一年逐时数据的缺失、异常情况,并选用自回归差分移动平均法(ARIMA)、风机片区时空插补法进行风机风速异常及缺失值插补.检验结果表明:插补后风机风速与实际值非常接近,基于风机片区的时空插补平均偏差约为0.68m/s,ARIMA方法的平均偏差约为0.82m/s,两种方法的插补结果7月优于1月;ARIMA插补适用于0~6h短时插补,而基于风机片区的时空插补适合于任意时长的插补,但是对片区风机的风速完整性有要求.总之,ARIMA与基于风机片区的时空插补方法均有较好的效果,且可根据实际情况具体选择.  相似文献   

8.
研究了MERRA网格点与输入变量的数量对插补精度的影响.以人工神经网络与遗传算法为工具建立MERRA数据与缺测数据相关关系的数学模型,基于该模型对现场缺测数据进行插补.该方法解决了在缺少合适参考气象站、参考测风塔数据时的缺测数据插补难题.以湖北某山区风场为例进行验证,结果表明:插补精度与选取的MERRA格点数量一定范围内呈正比关系,输入模型变量的较优选择为风速、风向、单位时间气温变化、日夜以及季节,计算得到的插补数据与缺测数据相关系数达到0.814,相对采用参考气象站数据和参考测风塔数据作为数据来源的方法,相关系数分别提高97.6%和10.3%.  相似文献   

9.
为了对光伏电站的历史数据进行修复,文中建立了基于三次样条插值和BP神经网络的光伏电站出力数据修复模型。首先对光伏电站原始数据进行清洗和处理;其次,寻找一天中只有一个数据空白点的情况,采用光滑样条插值法对其进行插补,然后寻找一天中有多个数据空白点的情况,采用相似日绝对均值法对其进行插补;再次,根据出力数据的特征要素及BP神经网络模型对待插补数据进行预测插补;最后,输出修复后的光伏电站出力数据。以青海海西地区光伏电站为例进行仿真验证,证明了模型的可行性及正确性。对光伏电站的历史数据进行修复,保证了数据的完整性和真实性,为研究光伏发电相关问题奠定了基础。  相似文献   

10.
为改善浮动车全球定位系统(global positioning system, GPS)数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,该模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21 d的出行轨迹数据进行插补。结果表明:所构建的模型平均误差为12.3 m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9、24.3、239.3 m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。  相似文献   

11.
为了增强定位精度,需不断提高电离层延迟模型精度,格网电离层模型由于修正效果佳而被广泛应用。针对格网模型构建过程中网格节点处电离层延迟的插值问题,提出了分片线性插值法计算用户端穿透点的电离层延迟。基于格网模型的特征,在同一模型中应用不同的插值算法进行电离层延迟误差的对比,并检验格网电离层垂直延迟修正误差(GIVE)。结果表明,使用分片线性插值法计算的穿透点电离层延迟值更接近于实测数据,GIVE值更小,从而验证了该插值方法计算用户端穿透点的电离层延迟的高准确度。  相似文献   

12.
预测地铁施工中地表变形的动态系统方法   总被引:5,自引:0,他引:5  
提出了基于自回归(AR)模型对时间序列统一建模的新观点和方法,可大大减少计算量,并在微机上编程实现,以实例对动态模型与静态模型分别作了应用比较,结果表明,时间序列分析动态模型是系统分析的重要方法,是统计预测中的高级预测方法,预测精度高,用途广泛,而静态模型适合于内插,不适合于外推预报。  相似文献   

13.
移动对象轨迹的双重插值   总被引:1,自引:0,他引:1  
移动对象的轨迹插值是查询处理的前提,插值的精度直接影响到查询处理的准确率.将保形三次Hermite插值引入到移动对象的时空轨迹插值,提出了双重插值模型,此模型继承了保形三次Hermite插值的优点,不需要速度条件便可以形成轨迹,容易将模型推广到高维空间,可以弥补移动对象数据库中记录点太稀疏的缺陷,并且插值精度比线性插值、非节点样条插值和保形三次Hermite插值更高.  相似文献   

14.
目的研究储层精细评价技术中的储层参数井间预测方法。方法基于人工神经网络模型,结合油藏微相研究成果,采用井位和微相信息作为神经网络的输入信息,采用神经网络模型对储层参数进行空间预测。结果利用空间分散井位点的孔隙度资料和地区沉积微相信息,对孤岛油田渤21断块油藏进行井间孔隙度内插预测,其井间参数的预测精度得到明显提高,为油藏建模提供了可靠的基础。结论基于神经网络模型的井间参数预测方法,可以为储层精细评价提供高质量的油藏地质模型。  相似文献   

15.
在DEM的建模中,已有的可视化方法都是从等高线数据开始,把它转换到另一种高程模型。本文主要针对规则格网和不规则三角形往的数据结构,提出一种用于地图编辑的等高线区域内插值算法。文章介绍了算法的原理、实现,充分利用了等高线的相关知识,计算速度快、操作简单,内插出的等高线质量较高,有广泛的实际应用范围。  相似文献   

16.
对于空间数据的插值预测,大多采用传统的空间插值方法如反距离加权插值法和克里金插值法,这2种方法在边缘分布或存在异常值的情况下会导致预测精度相对较低;采用基于Copula理论的方法克服了这一问题。通过Pair-Copula函数描述了空间相依结构并利用MCMC方法(贝叶斯估计法)估计参数,讨论基于空间数据对未观测位置相关数据进行了空间插值预测;结合重庆市雾霾数据对该方法与反距离加权插值法、普通克里金和泛克里金插值法进行比较,结果发现基于Pair-Copula函数的空间预测模型具有更高的精度。  相似文献   

17.
针对传统GM(1,1)模型的改进方法复杂、使用范围有限、预测精度不高等问题,本文对传统GM(1,1)模型的背景值进行理论分析并改进,用二次插值的方法重新构造背景值。在此基础上对原始数据通过滑动平均法进行初值预处理,给出改进的模型,最后运用其进行短期预测,仿真结果证明了此改进模型的有效性和可行性,为提高预测精度提供新的途径。  相似文献   

18.
为了更好地分析和预测股指时间序列的短期变化趋势,提出了一种确定分形插值自由参数的新方法,由此建立了一个改进的分形插值模型,并将该模型与支持向量机模型相结合构造混合预测模型.经R/S分析可知上海证券综合指数的日收盘数据具有长程相关性,于是将混合预测模型用于分析和预测上海证券综合指数时间序列,发现混合预测模型较其他方法具有更好的拟合效果,且在短期预测方面有更高的预测精度.  相似文献   

19.
基于归一化轮胎模型的路面附着系数观测   总被引:1,自引:0,他引:1  
针对已有的最大路面附着系数观测算法存在收敛速度不够快以及观测精度不够高的问题,提出一种新型的基于归一化轮胎模型理论的路面附着系数观测算法。该算法通过引进归一化轮胎模型,提出基于滑移斜率(slip-slope)的参考路面附着曲线识别算法,并据此开发了一种基于线性插值的最大路面附着系数观测方法,同时引入了回归最小二次算法(RLS)方法对观测结果实时进行数据后处理。仿真分析表明,该算法能准确识别路面附着系数,可使观测精度提高约30%,同时能有效提高识别的收敛速度。  相似文献   

20.
基于多参考站的分米级GPS伪距差分定位方法   总被引:1,自引:0,他引:1  
为了提高GPS单频伪距差分定位精度,提出了一种利用已有CORS系统进行伪距差分定位的方法.该方法以单站伪距差分为基础,利用改进的伪距差分模型,首先将各参考站伪距改正数除去接收机钟差影响,再通过参考站与流动站的位置关系建立伪距改正数线性组合内插模型.最后将模型内插得到的综合伪距改正数发送至流动站用户,实现伪距差分定位.实验表明,该方法能有效克服常规伪距差分定位精度不高,且随基线长度增加精度递减的缺陷.多参考站伪距差分能够较稳定地实现分米级定位,精度分布均匀.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号