首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 28 毫秒
1.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

2.
以多元统计分析技术为核心的间歇过程建模、在线监测逐渐成为过程工业的关注焦点,然而过程数据中存在的大量离群点将直接影响上述方法的可靠性,为此提出了一种基于偏鲁棒M-回归的间歇过程离群点检测方法.首先基于极大相关熵估计建立鲁棒预测模型;然后利用偏鲁棒M-回归算法计算模型的回归系数;最后采用Hampel识别器分析最终的权值,从而实现离群点的检测.将所提方法应用于某间歇反应过程,实验结果验证了方法的有效性.  相似文献   

3.
节能是当今社会面临的重大课题,高校作为能源大户以及教书育人的基地,必须在能耗监控系统中起到领先示范的作用。在节能分析系统中,能耗的预警预测是关键,因此,异常点的发现与分析,为预警提供了直接的依据,是整个系统的基础。在数据挖掘中,离群点检测分析可以通过多种方法实现,本文应用了基于统计分布的离群点检测方法,但由于在实际情况中,能耗数据的变化与社会各类群体的生活习性、工作周期相关,这些复杂性决定了在数据分析中,只能根据实际的业务来检验分析结果的正确性。本文通过对某高校的能耗进行基于统计分布的离群点分析,并结合校园能耗规律,得出在高校中能耗的异常情况并报警,以达到节约能耗的目的。  相似文献   

4.
文章为在非平稳时间序列的在线学习理论的基础上检测离群点和变化点提出了一个统一框架.在这个框架中数据源的一个概率模型用一种在线折扣学习算法被逐步学习,该算法能通过逐渐忘记过去数据的效果自适应地跟踪变化的数据源.然后任一给定数据的分数被计算出来测量它与学习模型的偏差,高分表明更有可能是离群点.进一步地数据流中的变化点通过用这一学习模型应用这种得分方法到一个移动平均损失预测时间序列中来检测.特别地我们为来自时间序列数据的自回归模型的在线折扣学习发明了一种有效算法,并通过仿真和在股票市场数据分析的实际应用验证框架的有效性.  相似文献   

5.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

6.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

7.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

8.
以稀疏表示为代表的回归分类方法对于高斯噪声具有较好的鲁棒性,但容易受到训练样本中离群点数据的影响导致欠拟合或过拟合.通过探索余弦函数对离群数据呈现的周期不敏感特性,使用余弦函数来刻画回归残差,并在复数域空间进行稀疏回归,提出了三角稀疏回归分类器(TSRC)模型.考虑到模型的非凸特性,普通的迭代算法难以获得全局最优解.因此,通过三角函数演算与核函数技巧将TSRC转化为一个凸优化问题,使用交替方向乘子法(ADMM)对模型进行求解,核函数的计算过程从核空间角度解释了模型对离群点鲁棒的本质原因,通过欧拉公式能够完全避开复数域的计算过程,从而起到加速的作用.在AR,Extend-YaleB及NUST-RF带有遮挡和光照变化的人脸识别数据集上进行了识别率与速度的实验,验证了所提出模型的有效性,在Extend-YaleB数据集上测试了所提出方法在不同尺度的训练样本下的运行效率,并与现阶段先进方法进行了对比.  相似文献   

9.
针对学生评教数据中的离群点问题,根据消极评教数据产生的方式及特点,提出了一种基于几何特征的学生评教数据离群点检测算法.该算法通过分析样本的几何特征,计算样本的离群程度,完成离群点检测,共分为3步进行:(i)依据教学质量评价数据,在几何特征空间中建立样本的点映射;(ii)从形状相似度、距离相似度2个方面构建判别空间,对几...  相似文献   

10.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

11.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

12.
点云预处理是点云处理很重要的一个环节,在移除稀疏离群点的过程中,点云密度不均会造成有用信息的过度删除。针对这个问题,提出了一种基于特征恢复的离群点移除算法。首先使用传统基于统计的k邻域稀疏离群点移除算法移除稀疏离群点,然后针对过度删除的情况采用RANSAC算法对点云特征进行恢复。实验结果表明,经过恢复的点云数据,相对于单纯依靠传统离群点移除算法处理后的点云数据,过度删除现象有明显改善。由此得出,基于特征恢复的离群点移除算法可以有效删除稀疏离群点,减小对噪声阈值的依赖,同时有效抑制了由于密度不均匀导致的点云数据的过度删除。  相似文献   

13.
结合基于有权重支持度框架的关联规则挖掘方法和基于超图模型的离群点检测方法,给出了一种离群数据的改进定义,并通过一个简单的实例说明了这种离群数据的离群含义,且与原离群点定义做了比较,分析了新定义离群数据的应用价值.  相似文献   

14.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

15.
物联网的快速发展产生了海量的高维时序数据,然而时间序列易受到外界变化的环境因素影响而产生离群点。针对现有的离群点挖掘算法不能兼顾时序数据的趋势性、季节性、循环性、不规则性的特点,从而导致检测效果不理想的问题,提出一种基于残差融合的时序数据离群挖掘(residual integration outlier,RIO)算法。首先利用线性自回归移动平均模型(autoregressive integrated moving average model,ARIMA)拟合数据,得到在相同时间粒度下的残差序列,并将该序列作为非线性模型长短期记忆网络(long short-term memory,LSTM)模型的输入,输出残差序列预测值,而后将经由ARIMA模型与LSTM模型处理的序列在相同时间粒度下融合,得到一条经由混合模型两次处理的残差序列。最后,利用基于直方图的离群点模型(histogram-based outlier score,HBOS)检测出该二次残差序列的离群点。实验表明,RIO算法的准确度得到了较为明显的提高,具备良好的实用价值。  相似文献   

16.
针对传统的基于距离的离群点识别方法难以直接有效地应用于高维数据且识别效果受参数影响的问题,本文提出了一种自适应的高维离群点识别方法,该方法利用经遗传算法优化的高斯受限玻尔兹曼机将高维数据非线性地映射到低维空间,然后通过自适应的离群点识别方法在低维数据空间进行离群点识别。采用UCI高维数据和中药高维数据进行验证实验,实验结果表明自适应的高维离群点识别方法能自适应地、有效地识别出高维数据中的离群点。  相似文献   

17.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

18.
融合离群点判别的稳态检测方法及其应用   总被引:1,自引:0,他引:1  
针对可能含有离群点的过程数据,提出一种融合离群点判别的稳态检测(Steady StateIdentification,SSID)方法,即基于新型3δ法则离群点判别与自适应多项式滤波(Adaptive Poly-nomial Filtering,APF)稳态检测相结合的方法。该方法首先根据历史稳态数据自适应地确定滤波窗口的长度;然后针对过程数据离群点的特点,采用提出的新型3δ法则滤除并替换窗口数据中的离群点;通过对消除离群点的窗口数据进行多项式滤波,得到反映该窗口内数据变化特征的曲线,并根据曲线的特征判断过程是否处于稳态。仿真研究与实际应用表明:融合离群点判别的稳态检测方法克服传统稳态检测方法中离群点对稳态检测结果的影响,检测结果明显优于传统的APF方法。  相似文献   

19.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

20.
张哲 《科技咨询导报》2010,(6):216-216,218
对两种常用的空间离群点检测算法进行简单的介绍,并通过实验对算法进行比较,分析了这两种空间离群点检测算法的优缺点,以及导致它们差异的具体原因。这对寻找更好的空间离群点检测算法具有实用意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号