首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
大数据时代下收集到的数据常含有异常值或呈现尖峰厚尾以及变量之间具有较强的相关性,针对此问题,结合秩回归和自适应弹性网(Adaptive Elastic-net )提出了一种高效稳健的变量选择方法。此方法的最大优点在于不仅能够有效处理协变量之间的强相关性而且还能克服多重共线性问题,同时能抵抗厚尾分布或异常值的影响,实现稳健的变量选择。在数值计算方面,采用二次近似和牛顿迭代算法以获得新变量选择方法的稳定数值解,仿真实验表明:新提出的方法比现有方法表现更好,特别是对于厚尾分布或异常值的情况。最后,通过对中国重要的股票市场指数——中证100指数的跟踪,进一步表明该方法在有效样本下具有良好的表现。  相似文献   

2.
在聚类分析或判别分析问题中,人们通常使用距离来度量观测的相似程度。其中,马氏距离考虑了数据之间的相关性,并可以消除量纲,从而得到了广泛应用。但在异常值存在时,马氏距离估计不够稳健。因此,构造稳健的马氏距离具有重要应用价值。本文基于Kendall秩相关系数来估计稳健的马氏距离,同时通过数值模拟,将稳健的马氏距离与传统马氏距离进行比较。结果表明在异常值存在时,稳健估计的马氏距离所得结果优于传统马氏距离。  相似文献   

3.
岩石抗剪强度计算的稳健回归模型及其应用   总被引:2,自引:0,他引:2  
 针对岩石抗剪强度确定中图解法和最小二乘法存在的问题:① 只适用于实验数据相关性较高的情况,不适用于数据离散并有异常值存在的情况;② 在处理由试验法获得的试验数据时,最小二乘法由于采用残差平方和,容易夸大试验数据中异常值的影响,提出了岩石抗剪强度参数的稳健回归分析方法。该方法在实验数据相关性差、数据离散并有异常值存在的情况下,具备削弱数据离散和对异常值进行定位的能力,提高了估计参数的稳健性和可靠性。该方法以残差的绝对值之和代替残差平方和,并通过复形法求得力学参数,避免了异常值的二次项,可有效地减少异常值的影响。通过工程实例表明,在试验数据的相关性较好时,两种方法的计算结果相差不大,但当试验数据的相关性较差,存在异常值时,稳健回归方法的计算结果要优于最小二乘法。  相似文献   

4.
稳健的变量选择方法及其应用   总被引:1,自引:1,他引:0  
在已有的变量选择方法和稳健估计方法的基础上,提出了一种针对纵向数据的稳健的变量选择方法,通过模拟衡量其稳健性,并将其应用到一组实际的纵向数据分析中.模拟和实例分析结果表明,提出的稳健的变量选择方法在选择变量、估计变量系数的同时,对数据中可能存在的异常值有明显的抵抗作用.  相似文献   

5.
在已有研究的基础上,提出一种新的基于t函数的稳健变量选择方法.该方法通过惩罚估计方程中的惩罚函数达到变量选择的效果,方程中的权重矩阵和有界得分函数对自变量和因变量中的异常值有很好的限制作用,可同时达到稳健的变量选择和稳健估计.通过分析3种不同自由度的t函数性质,选取自由度为2的t函数,并与基于Huber函数的稳健变量选择方法进行比较.数值模拟结果表明,基于t函数的稳健变量选择方法在2种污染力度、3种污染方式的数据污染情况下,其稳健性均明显优于基于Huber函数的稳健变量选择方法.与参数估计效果相比,基于t函数的稳健变量选择方法优势更明显.  相似文献   

6.
一种稳健的点云数据平面拟合方法   总被引:18,自引:4,他引:14  
针对常用的平面拟合方法在点云数据存在粗差或异常值扰动时,存在拟合结果不稳定的缺点,提出了一种稳健的点云数据平面拟合方法.该法以特征值法为基础,通过利用一定的准则删除点云数据中的粗差或异常值,从而获得稳健的平面参数估计值.在实验中,分别利用最小二乘法、特征值法和该稳健特征值法对点云数据进行拟合,结果显示该法能克服异常值的影响,得到可靠的平面参数估值,具有稳健性.  相似文献   

7.
多变量统计数据中异常值检验方法的探讨   总被引:5,自引:0,他引:5  
本文分析比较了单个变量异常值检验、及对多个变量进行综合检验的一些常用方法及其优缺点,并在此基础上,针对多变量、大样本统计数据,综合参数方法和非参数方法的特点,提出了一套系统的异常值检验方法。该方法具有适用范围广、稳健准确的优点,实例证明该方法确实行之有效,为评估统计数据的准确性提供了有利的依据。  相似文献   

8.
在研究存在异常值的logistic回归模型时,发现如果使用极大似然估计(MLE)方法进行参数估计,那么异常值引起的偏差不是造成参数估计过大而是导致参数向量内爆即参数向量收缩为零向量,此时如果进行群组变量选择很可能会忽略一些重要变量.因此针对具有组结构的logistic回归模型,为处理解释变量存在异常值时的群组变量选择问题,将基于最小距离法的稳健估计(L2E)方法与已有的3种群组变量选择方法和3种双层变量选择方法结合,在此基础上利用Majorization-Minimization(MM)算法对目标函数进行求解.通过数值模拟比较了基于L2E方法和MLE方法在模型具有组稀疏和双层稀疏的情况下,6种变量选择方法在不同维数下的有限样本表现,结果不仅验证了L2E方法在存在异常值的logistic回归模型参数估计中的稳健性,而且指出了在这6种变量选择方法中使用Group Bridge方法进行变量选择的准确度更高.  相似文献   

9.
闻亚  梁丁 《佳木斯大学学报》2021,39(1):160-165,170
多波束测深是获取水底地形的重要方法,针对多波束测深数据受到测船运动、假回声信号以及缺少检核条件而导致的异常值难以探测和剔除的问题,本文采用基于抗差的稳健估计滤波对测深异常值进行探测和剔除.对使用Seabat8125多波束测深系统测得的数据进行仿真处理,分别在平坦、倾斜和起伏这三种典型水底地形中随机加入不同幅度的异常值,然后基于抗差稳健估计滤波使用不同大小的滑动窗口对测深数据异常值进行探测和剔除,最后将处理结果与中值滤波和趋势面滤波进行对比分析.结果表明基于抗差的稳健估计滤波方法相比于其他两种方法可以更加有效的探测和剔除各种幅度的测深数据异常值且不受窗口大小的影响,进而为获取海水底地形提供准确的测深数据.  相似文献   

10.
高维数据如气象数据中不可避免地存在异常值,应用最广泛的最小二乘法在识别异常值上不具有稳健性和灵敏度.稳健估计方法可使求出的估计量不受异常数据的强烈影响,从而能更好地识别异常点.这里给出了基于稳健S估计的主成分分析模型,其中加入Tukey的双权型函数约束条件.该模型无须对数据分布函数的具体形式做假设,算法的收敛速度较快.之后再结合B样条函数对数据作平滑处理,以平均残差平方和为检验统计量,使用同样具有稳健性的调优箱型图作为判别异常值的界限.实证分析采用了我国长江流域5个城市60多年共约58 000条气象数据,分别运用PCA方法和基于稳健S估计的异常值判别方法对该数据集进行了对比分析.可以明显地看出,相比传统方法,基于稳健S估计的异常值判别方法更突出地给出关于异常值的信息,能更好地识别异常值.  相似文献   

11.
针对高维数据的建模分析问题,提出一种基于弹性网络法和复合分位数回归相结合的稳健估计方法。 在该 估计方法中,所提出的模型能够有效进行变量选择与系数压缩,并处理数据间的多重共线性与群组效应问题,在大 数据时代下具有较广的适应性。 同时,与已有的惩罚最小二乘估计和惩罚分位数回归估计相比,该估计方法不仅 放宽了对模型误差项的分布要求,而且综合考虑了多个分位点的损失,在面对离群值或呈现尖峰、厚尾分布数据时 能够保持更强的稳健性和抗干扰性。 在一定条件下,对所构建模型估计的相合性与稀疏性进行了理论分析,结果 表明:所提出的模型能够将不相关的变量完全压缩至零,且估计量和真实系数以趋于 1 的概率相同。 此外,在数值 模拟方面,设置了 5 种误差项分布条件,根据设定的 4 项指标,通过与其他惩罚函数模型以及损失函数模型进行比 较,结果表明新提出的方法具备更好的稳健性与有效性。  相似文献   

12.
The collected spikes from extracellular recordings usually contain noisy data and outliers, which make it difficult to separate them. A method for spike sorting based on robust clustering is proposed to deal with the problem. The clustering method combines the advantage of fuzzy clustering and robust statistical estimators. The number of dusters is obtained by fuzzy cluster validity. In order to reduce the influence of outliers, the validity index is calculated using the weighting intra-cluster distances. The proposed method is suitable to separate neural spikes in the presence of noisy data and outfiers. The experiment on real data shows its performance.  相似文献   

13.
封之聪  祝云  高枫 《科学技术与工程》2022,22(26):11394-11401
在火力发电过程中,蒸汽量的准确测量,对于汽轮机机组的经济稳定运行具有重要的意义。针对传统蒸汽量测量方法精度低的问题,提出了一种基于宽度学习系统(broad learning system, BLS)和Lasso (least absolute shrinkage and selection operator)回归模型的组合预测模型。首先利用One-class SVM (one-class support vector machines)算法对样本进行异常值检测,将检测得到的异常值剔除。然后,采用最大信息系数(maximal informationcoefficient, MIC)对特征变量和蒸汽量进行非线性关联性分析,确定宽度学习系统和Lasso回归模型的输入变量,通过训练得出各自的预测结果。最后,通过最优加权组合法确定两单一模型的权重系数,将它们所得的预测结果线性组合,得到最终的预测结果。实例表明,所建立的组合模型有效地缓解了单一模型在变化剧烈的峰值和谷值预测偏差大的问题,能够准确地预测蒸汽量。  相似文献   

14.
一种改进的基于光流的鲁棒多尺度运动估计算法   总被引:3,自引:0,他引:3  
基于图像的运动估计是计算机视觉在许多应用中的一项基本任务, 在这一领域的主要目标是尽可能精确地估计场景和物体的运动。针对界外值在光流估计过程中会引起不可预期的运动估计结果, 严重影响运动估计精度的问题,提出一种改进的鲁棒分层的多尺度运动估计算法。该算法利用图基的双权重函数,自动调节不同残差数据点的权重,去除残差过大的数据点,并采用多尺度金字塔由粗到精逐层迭代,精确地估计运动矢量。实验结果表明:该算法鲁棒性好,能有效地解决遮挡背景和运动不连续而引起的界外值问题,明显地提高运动估计精度。  相似文献   

15.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

16.
不确定重尾量测噪声干扰下的鲁棒目标跟踪算法  相似文献   

17.
一种超复数鲁棒相关图像配准算法   总被引:3,自引:0,他引:3  
为解决实际应用中彩色图像配准问题,针对已有的超复数互相关方法没有办法处理存在粗差的情况,在超复数互相关方法的基础上,结合鲁棒核函数,提出了一种超复数鲁棒相关的方法.该方法在频域中能使用快速傅里叶变换实现,在满足鲁棒性、实时性和准确性的同时,能通过遍历搜索去获得图像配准的全局解.即使在配准图像间存在粗差或者色彩旋转的情况下,该方法也能获得正确的配准结果.实验结果证明了该方法的有效性.  相似文献   

18.
摘要:
为解决异常误差导致的机载单站无源定位不准确问题,提出了一种鲁棒的约束总体最小二乘(RCTLS)定位算法.首先建立定位模型,构建了加权的约束总体最小二乘(WCTLS)定位准则,并给出了牛顿迭代解.然后,利用广义M估计原理构建了WCTLS准则的鲁棒极值函数,将鲁棒CTLS问题转化为对等价权函数的设计问题,并根据丹麦法构建了等价权函数.理论分析表明,RCTLS算法能够有效识别异常误差,并降低异常测量数据的权值以减小其对定位结果的影响.仿真结果显示,存在异常误差时, RCTLS算法能够获得理想的定位估值,具有较强的鲁棒性.
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号