首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对隔离森林异常点检测方法计算烦琐、耗时长等不足,提出基于XmR控制图的异常点检测算法.通过计算样本属性的单值均值、移动极差及其均值,绘制X图与mR图的控制界限和中心线,同时在图中绘制样本的单值属性;根据X图中超出界限的点对应的样本序号,与mR图中超出界限的点对应的样本序号加1,取并集,从数据中将其删除,然后将删除异常点后的数据代入CART、随机森林和支持向量机算法中进行实验验证.结果表明该方法与隔离森林方法相比具有更快的速度和更好的精度,为异常点检测提供了一种新的研究思路.  相似文献   

2.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

3.
基于角度分布的高维数据流异常点检测算法   总被引:1,自引:0,他引:1  
为了有效检测高维数据流中的异常点,提出一种基于角度分布的高维数据流异常点检测(DSOD)算法.运用基于角度分布的方法准确识别高维数据集中的正常点、边界点以及异常点;构造了基于正常集、边界集的小规模数据流型计算集,以降低算法在空间以及时间上的开销;建立了正常集、边界集的更新机制,以解决大数据流的概念转移问题.在真实数据集上的实验结果表明,所提出的DSOD算法的效率高于Simple VOA算法与ABOD算法,并且适用于大数据流上的异常点检测.  相似文献   

4.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

5.
针对变速箱故障机理复杂、信号分析较难获取充足异常样本标签的问题,提出一种基于集体离群点检测故障的方法。首先以多元高斯混合函数拟合正常样本数据集和测试数据集分布,其次采用不动点迭代算法求解似然估计函数,搜索出数据分布函数的最优参数,最后通过数据分布趋势对比挖掘测试数据集中的集体离群点。实验环节对包含8种故障类型的变速箱工作数据集进行测试,故障识别率均在90%以上。结果表明,该诊断方法可以在事先不了解故障机理的情况下,挖掘出数据集中表征变速箱故障的异常数据序列。  相似文献   

6.
针对目前异常用电检测中存在的专变用户窃电率高、窃电模式难以察觉、使用窃电检测模型查找窃电用户过程中训练集不足的问题,提出了一种基于用电特征分析的无监督方式异常用电检测方法.该检测方法引入离群点查找算法,量化了海量数据中不同异常用电行为,将其提取为异常用电特征序列,并且根据专变用户不同计量方式和用电特点,构建了基于局部离...  相似文献   

7.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

8.
针对三维点云数据简化过程中边界特征容易丢失问题,研究了一种点云边界特征提取方法.首先,对点的k近邻进行查找,并进行点的球拟合计算,得到拟合球的半径、点的曲率、点到球心距离.其次,通过数据点周围点的分布均匀性、自适应调节参数公式中的阈值,可以达到检测边界特征的目的.由不同模型的实验数据表明,该算法提取的边界满足了后期数据简化所需.  相似文献   

9.
异常数据的识别与挖掘是非常重要的数据分析之一,在传统的数据分析中往往将异常数据的影响最小化或剔除它们,这可能导致重要的隐藏信息的丢失.该文提出了一种时间序列中异常数据检测与挖掘的新方法,首先计算出时间序列相邻两个点之间的斜率,再与混沌预测斜率相比较以检测出数据的偏差点集,其次对偏差点集进行动态方差检测以确定其异常数据集.该算法较好地解决了异常数据分析中的"屏蔽效应"及异常数据识别不能具体量化的缺陷.  相似文献   

10.
针对仅考虑网络结构来对异质信息网络进行异常点发现可能带来的结果失真、难以理解等问题,提出一种富属性异质信息网络的可约束异常检测算法.通过将信息丰富的交互数据建模成富属性异质信息网络,以带属性元路径来指定用户感兴趣的属性和子空间,综合网络结构和属性内容两方面来评估节点的异常度,给出了可约束的异常检测算法框架.在Arxiv真实数据集上进行了实验,以带属性元路径来指定对作者、论文及论文的标题和摘要等方面的约束,对多个查询输出了异常度从高到低的节点列表及约束域异常点集合.结果表明:相比仅考虑网络结构或仅考虑属性内容的基准算法,平均准确率提高12.95%以上.  相似文献   

11.
基于点数据集三维空间曲面三角化算法实现   总被引:1,自引:1,他引:0  
在地质、医学等科学研究领域中,基于原始数据建立三维空间图像模型的研究具有较高价值;特别在三维地质构造建模中,测量获取的原始数据采用点数据集形式表示。基于点数据构建三维空间曲面三角化网格模型能够很好地还原点数据集所表示的曲面形态和展布,在现有的三角化剖分算法研究的基础上,提出一种基于点数据集三维空间曲面三角化网格模型生成算法;该算法生成的网格模型质量较高,能够较好地描述点集所表示的曲面形态。采用描述地质界面的点数据集进行算法验证与测试,根据边界数据实际情况,生成三维空间曲面三角化模型并更新网格模型边界,效果比较理想。  相似文献   

12.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

13.
台阶线信息对于露天开采具有重要价值,现有获取台阶线的方法工作量大、效率低、精度差,降低了矿山的生产效率和验收精度.因此,本文基于序列无人机影像生成的露天矿密集点云数据,研究并提出了一种自动提取露天矿台阶线的方法.该方法利用渐进形态学滤波算法对点云进行预处理,提出一种顾及邻域几何属性的三维边缘检测与曲率指数加权方法提取出台阶线特征点,并使用移动最小二乘法精确拟合出台阶线.实验结果表明该算法可以自动、高效、精确地提取出露天矿台阶线,生成露天开采现状图,对于露天矿生产和安全具有重要的应用价值.  相似文献   

14.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

15.
探讨了变系数模型中参系数函数的同质性,其中同一个子群中的个体的系数函数是相同的.在重复观测的条件下,我们用B样条来拟合变系数模型的系数函数,同时用变点检测的方法来进行子群识别.为了解释可能的异常值或重尾分布,我们在M估计的框架下拟合系数函数,在本文中以绝对值(LAD)损失为例.模拟数据表明,当模拟数据集存在异常值或参数...  相似文献   

16.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

17.
异常数据挖掘在Web服务器日志文件中的应用   总被引:1,自引:0,他引:1  
讨论了基于距离的异常点检测算法,分析了使用该算法进行异常点检测时效率较低、需要设置参数、算法实现困难等缺点;利用基于距离和的异常点定义方法及基于抽样的近似检测算法实现Web服务器日志文件的异常数据检测.实验结果表明了算法的有效性.  相似文献   

18.
为了提高异常检测算法在高维数据上的性能,提出了一种基于稀疏表征的孤立点检测(ODSR)方法.将实例表征为其他实例的稀疏线性组合,得到所有实例的近邻关系矩阵,并使用基于图谱理论的谱聚类方法识别异常点.该方法具有自动选择近邻的优势,能有效地得到近邻关系,并解决传统近邻算法中的k值选择困难问题.将ODSR与6种流行的异常检测算法在11个真实数据集上进行了综合实验比较,结果表明ODSR的复杂度及曲线下面积(AUC)值及稳定性更高.  相似文献   

19.
随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率.  相似文献   

20.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号