首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
当回归模型误差服从非对称或非正态分布时,尤其是在重尾分布或分布受污染的情况下,如何检测纵向数据中的异常值是数据分析中的一个重要问题。为了克服非正态分布模型误差的影响,采用稳健的分位数方法对一类线性混合效应模型进行参数估计,并分别基于数据删除模型和均值漂移模型构造强影响点的诊断度量和异常值的检验统计量,以有效地检测强影响点和异常值点。在识别强影响点时,为了减轻计算负担,利用光滑逼近的方法给出了数据删除模型参数的一步近似估计,并据此构造出基于损失函数的距离和Cook距离。为了能够识别异常值点,首先构造出检验异常值点的Wald统计量,然后基于数据删除模型和均值漂移模型的系数估计的等价性,利用Bootstrap抽样得到检验的拒绝域。数值模拟结果表明,本文所提的诊断度量和检验统计量都能够很好地判断出强影响点和异常值点。最后应用本文方法针对化学实验纵向数据进行了影响分析。  相似文献   

2.
异常值检测是当前数据分析中的一个重要研究领域.模型中的异常值会直接影响建模、参数的估计、预测等问题.回归分析是应用极其广泛的数据分析方法之一,本文针对回归分析中的异常值检测进行了研究.该方法基于均值转移模型,根据异常值对残差平方和的影响关系构造一个新的异常值判断准则的统计量,并给出了估计异常值大小的公式.本文进行了大量的模拟实验和实例分析,与传统方法相比,结果表明该方法是有效的.  相似文献   

3.
本文研究了线性模型中数据删除、均值漂移和方差扰动对回归系数β的形如β=(X~TX ε)~(-1)X~TY的有偏估计影响的差异,推广与发展了文献的理论,本文认为,数据删除对上述有偏估计的影响往往大于均值漂移产生的影响,而且它们的影响分析一般能统一在方差扰动模型的影响分析之中,为此,本文讨论了方差扰动模型中基于有偏估计的Cook距离的性质。  相似文献   

4.
将基于均值漂移和图模型的图像分割算法及这两种算法的混合算法应用到高分辨率卫星光学图像,并对比了它们在分割遥感图像时的稳定性。均值漂移算法是一种基于核密度梯度估计的特征空间分析算法,其实质是一种统计优化过程。基于图模型的算法将一幅图像抽象为一个无向图,通过不断合并图结点,将这个图分割为多个连通分量,进而实现一幅图像分割。混合算法首先利用均值漂移技术对图像进行滤波,然后再使用图分割算法对图像进行分割。实验结果显示,均值漂移算法分割结果对其参数变化较为敏感,而基于图模型的算法和混合算法则较为稳定。  相似文献   

5.
基于Bayesian方法的参数估计和异常值检测   总被引:1,自引:0,他引:1  
异常值检测是当前数据分析研究中的一个重要研究领域。模型中的异常值会直接影响建模、参数的估计、预测等问题。基于模型的异常值检测,传统的做法是先对模型参数进行估计,再进行异常值检测。而异常值的存在会影响参数估计,从而导致下一步异常值检测的不可靠;反之异常值检测也会影响参数估计。针对这些不足之处,提出了基于 Bayesian 方法的参数估计和异常值检测,此方法可以将参数估计和异常值检测同时实现,具体做法是在线性回归模型中引入识别变量,基于 Gibbs 抽样算法,给出识别变量后验概率的计算方法,通过比较这些识别变量的后验概率进行异常值定位,同时给出参数的估算方法。通过大量的模拟实验,结果表明,与传统方法相比,提出的方法对异常值更灵敏。  相似文献   

6.
研究了关于纵向数据的线性混合模型,由Fisher得分迭代法获得数据的删除模型(CDM)和均值漂移模型(MSOM)中回归参数β的M估计(稳健估计)的等价性,并对基于两种模型得到的诊断统计量进行了葡萄糖数据的实例分析,说明了方法的有效性.  相似文献   

7.
具有异方差的线性回归模型的统计诊断   总被引:1,自引:0,他引:1  
为了诊断具有异方差的线性回归模型的异常点,建立了具有异方差的均值漂移模型和数据删除模型.采用Score诊断统计量对具有异方差的均值漂移模型的均值是否漂移进行诊断,证明了异方差存在条件下均值漂移模型和数据删除模型的等价性.这一结果表明,在诊断具有异方差的线性回归模型的异常点时,可考虑采用更加便于处理的均值漂移模型.最后,用Score诊断统计量对镀锌数据进行了异常点的诊断.  相似文献   

8.
研究了线性模型中LIU估计的影响分析问题,得到了原模型与数据删除、方差扰动及均值漂移模型间——线性回归有偏估计(LIU)估计的关系式,给出了影响度量的计算公式。  相似文献   

9.
针对目标周围的背景信息对目标跟踪算法的影响,基于判别式序列表提出了一种改进的均值漂移目标跟踪算法.利用目标外观特征来描述目标模型与候选目标,同时通过判别式序列表对目标外观建模并对目标周围的背景信息进行描述.基于均值漂移跟踪框架,把目标外观模型与判别式序列表目标外观模型相结合来改进传统的均值漂移跟踪算法.在几个图像序列上...  相似文献   

10.
协方差分析模型的影响分析   总被引:5,自引:0,他引:5  
 考虑一般形式下的协方差分析模型的影响分析,分别导出了在模型扰动前后回归系数的LS估计和效应参数的LS解的相互关系,并证明了均值漂移模型与数据删除模型在参数估计上的等价性.利用Cook统计量和协方差比统计量,分别给出了均值漂移模型下回归系数和效应参数的可估函数的估计精度的影响度量.  相似文献   

11.
以多元统计分析技术为核心的间歇过程建模、在线监测逐渐成为过程工业的关注焦点,然而过程数据中存在的大量离群点将直接影响上述方法的可靠性,为此提出了一种基于偏鲁棒M-回归的间歇过程离群点检测方法.首先基于极大相关熵估计建立鲁棒预测模型;然后利用偏鲁棒M-回归算法计算模型的回归系数;最后采用Hampel识别器分析最终的权值,从而实现离群点的检测.将所提方法应用于某间歇反应过程,实验结果验证了方法的有效性.  相似文献   

12.
A novel approach for outlier detection with iterative clustering( ICOD) in diverse subspaces is proposed. The proposed methodology comprises two phases,iterative clustering and outlier factor computation. During the clustering phase, multiple clusterings are detected alternatively based on an optimization procedure that incorporates terms for cluster quality and novelty relative to existing solution. Once new clusters are detected,outlier factors can be estimated from a new definition for outliers( cluster based outlier), which provides importance to the local data behavior. Experiment shows that the proposed algorithm can detect outliers which exist in different clusterings effectively even in high dimensional data sets.  相似文献   

13.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

14.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

15.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

16.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

17.
为了提高多元时间序列模式异常检测算法的有效性和合理性,在k-近邻局部异常检测算法的基础上,结合基于主元分析的多元时间序列的降维方法,对多元时间序列模式异常进行检测.实验结果验证了该算法对多元时间序列模式异常检测的准确性和有效性.  相似文献   

18.
Outlier detection has very important applied value in data mining literature. Different outlier detection algorithms based on distinct theories have different definitions and mining processes. The three-dimensional space graph for constructing applied algorithms and an improved GridOf algorithm were proposed in terms of analyzing the existing outlier detection algorithms from criterion and theory.  相似文献   

19.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号