首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

2.
孤立点检测是数据挖掘中的一项广泛应用且较新的内容。根据孤立点的定义,提出一个基于偏离度的孤立点检测聚类分析算法。算法能够实现对异常数据进行处理。应用到学生成绩分析检测,保证实际聚类分析的准确性,数据的异常发现有利于学生教学的规划和推进。  相似文献   

3.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

4.
随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率.  相似文献   

5.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

6.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

7.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

8.
针对异常检测算法速度慢、精度低、稳定性差等问题,提出了一种通过异常概率排序提取异常点的算法(OAP).由于异常点相对正常点更容易通过对数据空间的均匀分割而孤立出来,所以OAP通过数据点在均匀N叉分割树中的孤立深度估算异常概率的大小,从而得到异常概率的排序,最终构造由k个异常概率最大的点组成的列表,列表中的数据就是所求的...  相似文献   

9.
针对入侵检测中异常点误报率较高的问题,提出了改进KNN与异常点检测算法相结合来处理数据的方法,以降低入侵检测误报率.该方法首先采用卡方特征选择方法进行数据特征选择,其次采用孤立森林、距离、局部异常因子(IDL)结合查找出异常点,然后使用SMOTE平衡数据,使得所有的样本达到一个类平衡状态,再采用KNN分类.最后采用公开...  相似文献   

10.
为准确全面感知高速公路交通运行状况,根据高速公路海量收费数据,提出一种高速公路通行异常事件识别的数据挖掘方法。首先,选取贵州省2017年1月的高速公路收费数据,筛选指定的进站、出站数据并去除多余字段,利用车辆进入和驶出收费站时间计算其在该路段的通行时长。然后,使用快速峰值聚类算法对通行时长和车辆总重进行聚类分析,计算数据间欧式距离,将此距离矩阵作为算法输入,计算各数据点的局部密度ρ及与密度更高点的距离δ两项指标;这两项指标均以较高的点为聚类中心,进而对非中心点进行分类及优化,输出聚类结果;聚类结果中除被分为若干类的正常数据外,还存在一些数据点明显异于大部分正常数据的噪声点,即异常数据,对这些异常数据进行具体分析。接着,采用孤立点检测法对筛选出的数据进行清洗处理,提取异常数据,检测出通行时间过长、过短及车辆总重过高、过低等异常事件。最后,将孤立点检测法得到的异常数据与快速峰值聚类算法的异常数据进行对比。研究结果表明:快速峰值聚类识别异常事件的准确率高于孤立点检测法约20%,验证了提出算法的有效性和准确性;提出的算法能有效准确识别收费数据中隐藏的公路拥堵、长时间停留、疑似逃费和网络设备故障等异常事件,进而为高速公路运营服务和管理决策提供数据支持。  相似文献   

11.
基于纵横距离的单纯异常点检测算法及应用   总被引:1,自引:0,他引:1  
首先讨论了异常点挖掘在数据挖掘过程中的重要性,产生异常点的原因,以及目前用于检测异常点的常用算法,指出了单纯应用距离法的局限性,提出了基于纵横距离的异常点检测算法,并给出了基于学生成绩检测的应用实例,该方法不需要进行大量的样本训练,在异常点检测方面有较好的效果.  相似文献   

12.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

13.
针对基于正态分布的检测算法在窗口中出现偏差较大的极端异常值时,检测模型出现不稳定的现象,提出一种基于柯西分布的异常检测算法。通过试验发现,用滑动窗口内的中位数以及中位数绝对偏差来代替均值以及标准差,可以较好地消除滑动窗口内极端异常值对检测算法的影响。探讨了算法中滑动窗口以及置信度的设置,并通过实例对算法进行验证。结果表明,所提算法的检出率在窗口以及置信度设置恰当的情况下保持较高水平。与其他算法对比表明,所提算法对于处理局部波动剧烈的流量时间序列展现出较好的适用性以及鲁棒性。  相似文献   

14.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

15.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

16.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

17.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

18.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号