首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
异常数据挖掘在Web服务器日志文件中的应用   总被引:1,自引:0,他引:1  
讨论了基于距离的异常点检测算法,分析了使用该算法进行异常点检测时效率较低、需要设置参数、算法实现困难等缺点;利用基于距离和的异常点定义方法及基于抽样的近似检测算法实现Web服务器日志文件的异常数据检测.实验结果表明了算法的有效性.  相似文献   

2.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

3.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

4.
对几种孤立点检测算法进行介绍,总结它们的特点.针对孤立点检测算法的一些弊端和瓦斯浓度的实际情况,选择一个基于DS(距离和)的孤立点检测算法实现对瓦斯浓度的异常数据进行分析处理,找到真正的异常数据,保证煤矿安全预警的准确性.  相似文献   

5.
为提升异常检测算法在处理局部异常、异常簇和复杂分布数据集时的检测精度,降低对数据先验信息的依赖性,提出一种基于逆K最近邻的密度峰值异常检测方法(Rknn-DP).首先结合逆K最近邻(Rknn)改进密度峰值算法中局部密度和相对距离的计算方式,通过引入邻域信息更准确地刻画异常点的特征,然后根据特征分布选取局部密度低、相对距离高的点作为粗选异常点集合,最后通过逆K最近邻计算粗选集合的异常因子,根据异常程度进行剪枝,排除噪声点、降低连带错误效应,自适应得到最终的异常点集.通过与ABOD、LSCP、HBOS、IForest等算法在真实数据集与人工数据集上的对比实验,证明了Rknn-DP算法的自适应性和有效性.  相似文献   

6.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

7.
在基于距离的孤立检测算法的基础上,讨论了基于距离和的孤立点检测算法,并将CURE聚类算法中使用的抽样算法应用于对该算法中的数据抽取,并创新地将该算法应用于纳税行为分析.结果表明,此算法可以有效地检测出纳税行为中的异常现象即孤立点,对纳税行为的分析有非常有效的作用.  相似文献   

8.
异常检测是数据挖掘中的一项关键技术,在计算机和互联网领域有广泛的应用,包括网络安全、图像识别、智能运维等,特别是智能运维,近几年取得了长足的发展.已有的异常检测算法会有低准确度、离线、无法自动更新等问题.为此对智能运维背景下的真实异常检测问题进行研究,构建高准确度、在线、通用异常检测算法,并据此在已有时间序列异常检测算法的基础上,提出了一种新的基于欧式距离的在线异常检测算法.通过实际的运维时序数据实验,发现该算法可以实时快速准确地检测流式时间序列数据中的异常数据,验证了该算法的有效性.  相似文献   

9.
基于密度的异常检测算法在入侵检测系统中的应用   总被引:2,自引:0,他引:2  
给出了异常的定义,介绍了几种典型的异常检测算法并比较它们的优缺点,发现基于密度的异常检测算法的局部异常观点较符合现实生活中的应用.阐述了基于密度的异常检测算法的定义及其在入侵检测系统中的具体应用.  相似文献   

10.
基于角度分布的高维数据流异常点检测算法   总被引:1,自引:0,他引:1  
为了有效检测高维数据流中的异常点,提出一种基于角度分布的高维数据流异常点检测(DSOD)算法.运用基于角度分布的方法准确识别高维数据集中的正常点、边界点以及异常点;构造了基于正常集、边界集的小规模数据流型计算集,以降低算法在空间以及时间上的开销;建立了正常集、边界集的更新机制,以解决大数据流的概念转移问题.在真实数据集上的实验结果表明,所提出的DSOD算法的效率高于Simple VOA算法与ABOD算法,并且适用于大数据流上的异常点检测.  相似文献   

11.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

12.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

13.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

14.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

15.
数据挖掘中并行离散化数据准备优化   总被引:2,自引:0,他引:2  
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.  相似文献   

16.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

17.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号