首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

2.
针对多基线相位干涉仪测角雷达在通道相位误差较大时解模糊结果存在异常的问题,提出了一种基于有限记忆算法的干涉仪解模糊异常值检测与纠错方法.该方法利用逐次测角算法的初次解模糊结果估计角度和整周模糊值的初始值,在此基础上进行角度和整周模糊值的有限记忆递推,识别原始测角数据中存在的数据异常值,对其进行异常值剔除或重新解模糊纠错处理.仿真结果表明,该方法原理正确,对于干涉仪解模糊数据中出现的孤立型及连续型异常值都能够进行有效的检测并予以纠正,显著降低了解模糊的出错概率.  相似文献   

3.
基于Bayesian方法的参数估计和异常值检测   总被引:1,自引:0,他引:1  
异常值检测是当前数据分析研究中的一个重要研究领域。模型中的异常值会直接影响建模、参数的估计、预测等问题。基于模型的异常值检测,传统的做法是先对模型参数进行估计,再进行异常值检测。而异常值的存在会影响参数估计,从而导致下一步异常值检测的不可靠;反之异常值检测也会影响参数估计。针对这些不足之处,提出了基于 Bayesian 方法的参数估计和异常值检测,此方法可以将参数估计和异常值检测同时实现,具体做法是在线性回归模型中引入识别变量,基于 Gibbs 抽样算法,给出识别变量后验概率的计算方法,通过比较这些识别变量的后验概率进行异常值定位,同时给出参数的估算方法。通过大量的模拟实验,结果表明,与传统方法相比,提出的方法对异常值更灵敏。  相似文献   

4.
异常值的存在会不同程度地影响BP神经网络对棉纱强力指标的预测精度,因此对原数据进行异常值检测及对检出异常值的处理是非常关键的.采用系统聚类中的k最近邻密度估计方法对数据样本中存在的异常值进行检测,使用多元回归分析方法对检出的异常值进行修正,对修正前后共4组棉纱强力数据样本进行预测,得到各自的预测精度,经过对比分析,发现修正样本的相对误差和均方误差均明显低于其他3组包含异常值的样本,且异常值的数量越多则预测精度越低.  相似文献   

5.
异常值检测是当前数据分析中的一个重要研究领域.模型中的异常值会直接影响建模、参数的估计、预测等问题.回归分析是应用极其广泛的数据分析方法之一,本文针对回归分析中的异常值检测进行了研究.该方法基于均值转移模型,根据异常值对残差平方和的影响关系构造一个新的异常值判断准则的统计量,并给出了估计异常值大小的公式.本文进行了大量的模拟实验和实例分析,与传统方法相比,结果表明该方法是有效的.  相似文献   

6.
异常值的智能处理在动态测试数据系统中显得无为重要。本文运用模糊数学中的隶属度与最优隶属原则、贴近度与择近原则将人脑的逻辑思维与物理先验知识加以数学抽象概括,提出了能实现异常值自动剔除的新方法。  相似文献   

7.
异常值会使统计分析误差增大,为了识别这些异常值,本文给出了基于Gibbs抽样识别可加异常值的方法,并用我国人民币对美元汇率的月度数据进行实证研究。  相似文献   

8.
多元约束线性回归中异常值检验   总被引:2,自引:1,他引:1  
讨论了带约束的多元线性回归模型中异常值的检验问题,证明了带约束的多元数据删除模型与相应的均值漂移模型的统计量之间的等价性,得到了异常值检验的似然比统计量及其分布。  相似文献   

9.
考虑Ⅱ型极值分布总体,给出了判断样本异常值的Irwin型检验统计量的分位点以及模拟试验的功效。其中部分结果已被国家标准GB6380—86所采用。  相似文献   

10.
当回归模型误差服从非对称或非正态分布时,尤其是在重尾分布或分布受污染的情况下,如何检测纵向数据中的异常值是数据分析中的一个重要问题。为了克服非正态分布模型误差的影响,采用稳健的分位数方法对一类线性混合效应模型进行参数估计,并分别基于数据删除模型和均值漂移模型构造强影响点的诊断度量和异常值的检验统计量,以有效地检测强影响点和异常值点。在识别强影响点时,为了减轻计算负担,利用光滑逼近的方法给出了数据删除模型参数的一步近似估计,并据此构造出基于损失函数的距离和Cook距离。为了能够识别异常值点,首先构造出检验异常值点的Wald统计量,然后基于数据删除模型和均值漂移模型的系数估计的等价性,利用Bootstrap抽样得到检验的拒绝域。数值模拟结果表明,本文所提的诊断度量和检验统计量都能够很好地判断出强影响点和异常值点。最后应用本文方法针对化学实验纵向数据进行了影响分析。  相似文献   

11.
当河段实测出流流量值被不服从正态分布的异常值污染时,最小二乘法不能获得参数最优估计.为此,采用崩溃率为20%、附有条件的抗差最小二乘法估计马斯京根汇流参数最优值.通过对闽江永安河段理想模型参数的计算,比较了参数抗差最小二乘法与最小二乘法抵抗2类误差的效果.结果表明,抗差最小二乘法能排除异常值对参数估计的影响而获得稳健性的参数.  相似文献   

12.
高程异常值微机自动查询系统的研究与设计   总被引:1,自引:0,他引:1  
提出了高程异常等值线图的数字化和数据提取方法,建立了区域内高程异常数据库,采用距离加权、最小二乘插值、梯度插值三种实现了任意点高程异常的解算。解决了大地坐标和高斯直角坐标的转换,等值线图的显示、缩放、漫游等关键技术问题,采用面向对象的VB编程方法,开发了高程异常值的微机自动查询系统,可为测绘有关部门提供任意点的高程异常值。  相似文献   

13.
差异系数和基尼系数是义务教育均衡发展程度评估2种常用的测算方法,通过向正态分布数据中加入双侧异常值,以及向截尾正态分布数据中加入单侧异常值进行模拟研究。研究结果表明:异常值对差异系数的影响程度明显高于基尼系数。因此,在义务教育均衡发展程度评估中,应根据评估目的综合考量,选取合适的测算方法。  相似文献   

14.
本文利用屏蔽效应理论检验L统计量的屏蔽效应,通过检验提出Ⅰ型极小值分布下异常值检验的最优统计量是L统计量。  相似文献   

15.
从我国煤矿现有的通风安全监测系统实际出发,以风量监测数据发生异常为线索,力图根据监测系统提供的数据,推断出造成这一异常现象的原因,并给出信息。本文论述了相应的物理模型及其算法。  相似文献   

16.
关于正态样本下多个异常值的检验,各种文献中仅对异常值个数已知的情况作了讨论.当异常值个数未知时,本文成功的找到了确定异常值个数的方法.此法简单有效,完全可以消除masking或swamping效应  相似文献   

17.
含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战.传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用.但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效.因此,本文利...  相似文献   

18.
研究了非平衡单向分类随机效应模型中多个异常值的检验问题.分别在随机效应及误差变量上的均值滑动模型下,给出了得分检验统计量的具体形式及近似分布.通过随机模拟,证实了方法的有效性.  相似文献   

19.
研究了多响应回归模型下含有异常观测值的试验设计问题,导出了衡量设计稳健性的准则.以中心组合设计为例,给出了角点和中心点次数不同时,使得稳健性准则达到最小的星点臂长,从而找到了相应的稳健设计.  相似文献   

20.
在双向分类随机效应模型中,在实际应用时人们更感兴趣的是模型的可加性。此时异常值的出现是由于它偏离了模型的可加性假设。即数据中的少部分点偏离了模型的可加性。这在实际中是一个重要问题,同时也是本文所研究的内容。本文安排如下:第二节给出模型的介绍及问题的由来;第三节导出了可加性outlier的检验方法及检验统计量的精确分布,并给出双向分类随机效应模型中可加性异常的检验方法;第四节对相关问题进行了讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号