首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 44 毫秒
1.
聚类算法通常用于数据的聚类,但只要对算法结果从另一角度进行分析,则可发现它还可以用于异常数据的检测. 首先介绍了数据挖掘中的聚类算法,进而结合具体实例给出应用基于密度的聚类算法DBSCAN进行异常检测的过程,最后指出最终异常数据集的确定还应结合领域专家意见.  相似文献   

2.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

3.
针对低压台区线损异常情况的判断问题,以电力公司用电信息采集系统采集的日线损率数据为基础,提出了一种基于k-medoids聚类算法的低压台区线损异常识别方法,并以某地区819个台区为例进行算法可靠性的验证.首先应用局部异常因子LOF算法对低压台区异常日线损率数据进行判断、筛选和剔除;其次应用k-medoids聚类算法对日...  相似文献   

4.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

5.
对区域用水的异常模式识别可以为自来水公司实施科学化运行管理提供重要的依据.基于密度的聚类算法与k均值算法相结合,对城市供水管网片区用水进行异常模式识别.首先提取时间和瞬时用水量2个特征,通过k均值算法将所有数据样本分离为不同模式,然后分别对不同模式构建基于密度的聚类算法进行异常点识别.对某地两分区的监测数据进行实验,得到用水异常模式的识别结果与分析.与现有异常检测方案相比较,提出的融合算法所得到的检测结果更具有完整性和准确性.  相似文献   

6.
异常检测方法在电力领域有着广泛的应用,如设备故障检测和异常用电检测等.改进了传统Kmeans聚类随机选择初始聚类中心的策略;结合数据对象的密集度与最大近邻半径,选择更加接近实际簇中心的数据点作为初始聚类中心,并在此基础上提出了一种基于改进K-means算法的电力数据异常检测新方法.实验表明,上述算法具有更优的聚类效果和异常检测性能,并且在应用于电力领域时,算法可以有效地检测出异常电力数据.  相似文献   

7.
随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注,异常点挖掘在信息科学研究领域日益受到重视.本文首先给出异常点的定义,并在聚类分析的基础上对PAM算法、BIRCH算法、DBSCAN算法和CURE算法在算法效率、适合的数据类型、发现的聚类类型、对异常数据的敏感性、空间复杂性、时间复杂性、使用的方法等方面进行了比较研究,最后给出了如何使用这些聚类算法处理异常点的方法.  相似文献   

8.
通过分析国内外读者行为分析算法的优缺点,提出了一种基于灰狼优化聚类算法的读者行为分析算法.首先,通过灰狼优化算法自动寻优找到模糊C均值聚类算法的最佳初始聚类中心点,再对该初始聚类中心点进行迭代计算,得到最终聚类结果.读者借阅行为数据实验分析结果验证了灰狼优化聚类算法要优于普通的聚类算法.  相似文献   

9.
以海量非结构化数据为研究对象,在已有聚类算法研究基础上,从数据的获取与预处理,到数据聚类,再到数据的个性化管理全过程进行分析,针对数据聚类过程中的计算量庞大和复杂程度高的现状对已有CURE聚类算法进行优化,尽可能的最大程度提高数据聚类效率,进而提高大数据挖掘水平,为大数据应用提供更好的服务.通过以某通信企业不断变化的用户数据为分析对象,证明此次基于CURE聚类算法优化的数据挖掘算法有效性,结果表明CURE聚类算法优化具有一定的可用性和实用性.  相似文献   

10.
利用传统的聚类算法对直觉模糊集进行聚类分析时,存在对异常值敏感、复杂度较高的问题,不适用于大规模直觉模糊数据的聚类。针对上述问题,提出了一种基于密度峰值思想和加权兰氏距离的直觉模糊聚类算法(WIFDPL),用来提高算法对直觉模糊数据的检测精度,降低算法的复杂度。由于现有直觉模糊距离算子不满足距离度量的定义,提出了一种新的直觉模糊兰氏距离算子,减少了数据的偏移程度,降低了对异常值的敏感程度;由于凝聚型层次聚类算法复杂度较高,采用密度峰值聚类算法对直觉模糊集进行聚类,显著提高了算法的运行效率。实验结果表明,利用改进的直觉模糊兰氏距离提高了聚类精度,且新算法复杂度较低,更适用于大规模直觉模糊集的聚类。  相似文献   

11.
从聚类数据特点出发,分析了现有的各种聚类算法的特点,提出一种基于密度分布的紧密蔓延树聚类(density spread tree clustering algorithm,DSTC)算法,该算法由构建紧密蔓延树和数据聚类两部分构成.在各种形状区域数据和交通标志图像数据上对DSTC算法进行了聚类能力验证,实验结果表明,DSTC算法能够聚类区分不同形状区域中的数据.  相似文献   

12.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

13.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

14.
对健康和心律异常的心电信号进行分析,经小波分解之后的心电信号实现R波的准确定位,提取心率变异性这一特征参数的5项指标.根据心率正常和异常体现在特征参数上的差异,用模糊C均值聚类算法得到心率变异的病症模式,并与正常心电数据进行比较.结果表明,心率变异特性具有明显的可分性,基于模糊C均值聚类算法可以得到较好的结果.  相似文献   

15.
为准确全面感知高速公路交通运行状况,根据高速公路海量收费数据,提出一种高速公路通行异常事件识别的数据挖掘方法。首先,选取贵州省2017年1月的高速公路收费数据,筛选指定的进站、出站数据并去除多余字段,利用车辆进入和驶出收费站时间计算其在该路段的通行时长。然后,使用快速峰值聚类算法对通行时长和车辆总重进行聚类分析,计算数据间欧式距离,将此距离矩阵作为算法输入,计算各数据点的局部密度ρ及与密度更高点的距离δ两项指标;这两项指标均以较高的点为聚类中心,进而对非中心点进行分类及优化,输出聚类结果;聚类结果中除被分为若干类的正常数据外,还存在一些数据点明显异于大部分正常数据的噪声点,即异常数据,对这些异常数据进行具体分析。接着,采用孤立点检测法对筛选出的数据进行清洗处理,提取异常数据,检测出通行时间过长、过短及车辆总重过高、过低等异常事件。最后,将孤立点检测法得到的异常数据与快速峰值聚类算法的异常数据进行对比。研究结果表明:快速峰值聚类识别异常事件的准确率高于孤立点检测法约20%,验证了提出算法的有效性和准确性;提出的算法能有效准确识别收费数据中隐藏的公路拥堵、长时间停留、疑似逃费和网络设备故障等异常事件,进而为高速公路运营服务和管理决策提供数据支持。  相似文献   

16.
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预.  相似文献   

17.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

18.
作为一种主动的信息安全保障措施,入侵检测技术有效地弥补了传统安全保护机制所不能解决的问题.先进的检测算法是入侵检测研究的关键技术.首先提出新的相似度函数Dsim(),有效地解决了高维空间聚类选维和降维问题,实现了高效的聚类;接着将Dsim()与近似K-medians算法相结合,提出了新的模糊聚类算法----DCFCM,并将其用于入侵检测.解决了由尖锐边界、孤立点所带来的误报警和漏报警问题,实现了对异常行为的检测.仿真实验结果表明,该系统对网络正常数据和异常数据聚类,进行动态数据分析,实现异常检测的思想是有效的.在网络入侵数据检测中,DCFCM算法相对于传统的FCM算法有较高的检测率和较低的误警率.  相似文献   

19.
为解决常用于就业数据信息分析的K-means算法中初始化聚类中心敏感和容易陷入局部最优值问题,提出了一种新的动态聚类算法.该算法首先利用最近邻聚类法获得初始聚类中心,然后利用小类对合并条件进行聚类合并,从而获得更优的聚类结果.以多个高职院校近几年的就业数据为样本信息,在数据预处理的基础上,运用提出的聚类方法进行了聚类实验分析,并挖掘出与就业质量相关的因素.最后的实验结果表明,文中提出的聚类方法聚类划分效果更优.  相似文献   

20.
Gustafson-Kessel(GK)聚类算法可以有效地搜索超椭球、平面和线型的数据类,但仍然存在对初始聚类中心较敏感、易于陷入局部最优的缺陷.为此,文中根据鱼群觅食与聚类的相似性,利用人工鱼群(AFS)算法对聚类中心进行初始化,提出了改进的G-K聚类算法,并利用人工数据集和IRIS数据集进行仿真研究.结果表明,文中算法能有效地发现数据集中的聚类结构,聚类效果优于GK聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号