首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 968 毫秒
1.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

2.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

3.
传感器节点监测数据缺失会影响核电站外围环境辐射监测的有效性,需要对缺失数据进行准确估计.提出一种基于支持向量机的监测数据缺失值估计算法,对传感器节点缺失监测数据进行估计.用实际监测数据对算法进行了验证,用均方误差和相关系数评价实验结果.并与现有的基于神经网络的估计算法进行了性能比较.实验结果表明,本文所提出的算法具有较高的估计精度.  相似文献   

4.
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测.  相似文献   

5.
区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。  相似文献   

6.
介绍了空间数据库中最近邻居查询的基本概念和算法,并详细说明了时间参数查询和基于位置的最近邻居查询,列出了它们的适用范围,同时也指出了这两种最近邻居查询算法对动态环境的不适用性。在此基础上,提出了一个动态环境下的基于位置的最近邻居查询算法。  相似文献   

7.
谌桢文  常军 《科学技术与工程》2023,23(20):8846-8853
桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补传感器数据中的缺失值,确保桥梁监测数据的完整性。由于不同位置处相同类型传感器的相关性较强,首先利用岭回归(Ridge Regression,RR)解决共线性问题,建立各传感器数据之间的关联,并预测缺失数据。接着引入季节性差分自回归滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA) 方法,利用其样本外预测能力并结合岭回归方法预测桥梁未来运行数据。然后,通过设立预警值实现健康状况预警,以保证桥梁健康运行。最后,将该方法应用于实桥中,验证了其有效性,为传感器数据填补以及预测桥梁未来状态提供了一个有效的预测模型。  相似文献   

8.
提出加权壳近邻填充缺失数据数学模型,充分利用壳近邻填充选取近邻数据的特性,侧重于被重复选择到的近邻点,有效提高了填充效果. 还提出一种称为goodness的新评价方法,克服了均方根误差(RMSE)的弱点. 实验结果表明,提出的加权壳近邻填充数学模型比一般的近邻填充的效果好,而且goodness评价方法比RMSE更能分辨出填充算法的性能.  相似文献   

9.
为了提高相似最近邻搜索(ANN)算法的精度,提出了一种在度量空间下基于距离的相似最近邻搜索算法-优化的VP森林(OVF)算法。在传统VP树(VT)算法的基础上,首先采用改进的选择优势点的方法,通过从数据集采样优势点候选集,对其进行评估,选取其中区分度大的点作为优势点;然后提出构建多棵VP树的新方法,改进距离优势点远的子树中最近邻不紧凑问题;接着提出使用优先队列与剪枝搜索方法结合的新搜索方法查找最近邻,减少了很多不必要的距离计算。最后通过实验结果表明,本文方法在数据维度、数据集大小、返回不同邻居个数、不同的距离函数及建树个数方面精度有了很大的提高。  相似文献   

10.
为了满足智慧交通管理系统向智能化方向发展,一般采用毫米波交通雷达对交通流进行实时并准确地检测。由于受到时间、天气和通信故障等因素的影响,以及雷达最大作用距离的限制,数据常常存在缺失异常等情况,从而对交通流变化规律分析带来很大的影响。在研究城市道路中交通流数据质量优化及交通流变化规律的问题时,对原始交通流数据分成三份,首先采用组合检验和阈值检验,非线性回归分析、线性插值、历史均值法、粒子群多层前馈(PSO-BP)神经网络算法,分别完成异常数据的识别、更正及部分缺失数据的填补,然后建立时间序列的交通流模型、交通流参数关系模型,根据交通流内在的变化规律建立改进后的神经网络回归预测模型,完成所有缺失数据的填补,最终获得完整的高质量数据。本算法的精确度可达到95.54%,能有效进行数据质量优化与预测。  相似文献   

11.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

12.
一种改进的LLE方法   总被引:1,自引:0,他引:1  
局部线性嵌入(Locally Linear Embedding,简称LLE)是一种较好的非线性降维方法,这种方法对于位于某种非线性流形上的数据的降维有着比较好的效果.但是这种方法对于其中一个重要参数——近邻个数,太过敏感.文章将另一种非线性降维方法Conformal-Isomap中的一种度量数据之间距离的方法引入到LLE方法中.经过实验发现,新引入的距离对于近邻个数的选择有比较好的效果,可以使得实验的结果对近邻个数的选择不那么敏感.  相似文献   

13.
基于最近邻法的短时交通流预测   总被引:3,自引:0,他引:3  
针对交通流量变化存在周期性和随机性的特点,提出一种基于最近邻法的预测方法.着重介绍了状态向量构造、近邻范围确定和权重计算方法三方面的研究.根据流量与速度、占有率的关系,认为状态向量中不必考虑速度和占有率这两个交通参数;与传统最近邻法不同,近邻的个数不设为常量,而取决于所能搜索到的记录数;通常根据距离远近赋予权重的规则不可靠,而采用了等权重法.通过实际数据检验,预测误差低于7%.  相似文献   

14.
多数全基因组关联性研究(GWAS)采用不同的分型芯片,导致遗传变异位点的数目及选择准则不同。基因型填补可以依据已有的基因分型数据,对未分型的位点进行填补。在应用IMPUTE2软件对基因型和表型数据库(db Ga P)中胃癌GWAS数据进行全基因组填补,以详细介绍全基因组填补的原理和过程。以第九号染色体为例,使用1000 Genome Project模板介绍全基因组填补的过程,包括填补前的质量控制、Pre-phasing、填补过程、填补的质量评估及填补后的关联性分析。第九号染色体在填补前有21 033个位点;而在填补后有1 630 406个SNP;其中INFO0.3的SNP位点有817 494个;而填补质量较高(INFO0.5)的位点数目有584 755个。IMPUTE2软件可以快速准确的对未分型的基因型进行填补,从而可以将多个GWAS数据整合到相同的位点数和密度上,再进行联合分析可以提高检验的把握度以便发现新的遗传易感性位点。  相似文献   

15.
提出一种神经网络分类器的动态集成方法.基于bootstrapping构建不同的个体神经网络,针对混合属性,通过不同的加权最近邻设计评估单个网络的分类精度,在此基础上动态选择误差率较小的神经网络,经过投票形成集成分类结果.将该方法与其它几种集成方法在10个UCI数据集上进行了分类性能比较.实验结果表明,该方法在上述所有数据集上的平均分类精度最佳,同时发现,Bagging比隐层神经元数法能更好地生成个体网络,而将两者结合起来训练个体神经网络,并不能明显提高集成性能.  相似文献   

16.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

17.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

18.
针对不完备信息系统,提出缺失比概念.用缺失比表示待填充样本中缺失数据和剩余数据对决策结果的影响能力的大小,进而根据缺失比选择使用的约简,然后通过填充矩阵寻找缺失数据的最大可能值.采用对Rough集进行扩充和数据填补相结合的决策表数据补齐方法.试验结果表明该方法有较好效果.  相似文献   

19.
空间k近邻查询的新策略   总被引:13,自引:0,他引:13  
有效执行空间k近邻查询是地理信息系统尤其关心的问题,空间近邻查询是基于空间索引的树的遍历过程,苦测量距离和剪枝策略选取适当,可以极大地减少搜索空间所需访问的事点数,基于Rousspoulos等提出的测量距离,提出2个新的近邻搜索剪枝策略,用于空间k近邻查询,给出了搜索算法,并用算例表明该策略具有更好的剪枝效果,提高了空间k近邻查询的效率。  相似文献   

20.
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号