首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 286 毫秒
1.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

2.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

3.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

4.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

5.
《河南科学》2016,(3):348-351
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.  相似文献   

6.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

7.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

8.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

9.
为准确全面感知高速公路交通运行状况,根据高速公路海量收费数据,提出一种高速公路通行异常事件识别的数据挖掘方法。首先,选取贵州省2017年1月的高速公路收费数据,筛选指定的进站、出站数据并去除多余字段,利用车辆进入和驶出收费站时间计算其在该路段的通行时长。然后,使用快速峰值聚类算法对通行时长和车辆总重进行聚类分析,计算数据间欧式距离,将此距离矩阵作为算法输入,计算各数据点的局部密度ρ及与密度更高点的距离δ两项指标;这两项指标均以较高的点为聚类中心,进而对非中心点进行分类及优化,输出聚类结果;聚类结果中除被分为若干类的正常数据外,还存在一些数据点明显异于大部分正常数据的噪声点,即异常数据,对这些异常数据进行具体分析。接着,采用孤立点检测法对筛选出的数据进行清洗处理,提取异常数据,检测出通行时间过长、过短及车辆总重过高、过低等异常事件。最后,将孤立点检测法得到的异常数据与快速峰值聚类算法的异常数据进行对比。研究结果表明:快速峰值聚类识别异常事件的准确率高于孤立点检测法约20%,验证了提出算法的有效性和准确性;提出的算法能有效准确识别收费数据中隐藏的公路拥堵、长时间停留、疑似逃费和网络设备故障等异常事件,进而为高速公路运营服务和管理决策提供数据支持。  相似文献   

10.
在基于距离的孤立检测算法的基础上,讨论了基于距离和的孤立点检测算法,并将CURE聚类算法中使用的抽样算法应用于对该算法中的数据抽取,并创新地将该算法应用于纳税行为分析.结果表明,此算法可以有效地检测出纳税行为中的异常现象即孤立点,对纳税行为的分析有非常有效的作用.  相似文献   

11.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

12.
A novel approach for outlier detection with iterative clustering( ICOD) in diverse subspaces is proposed. The proposed methodology comprises two phases,iterative clustering and outlier factor computation. During the clustering phase, multiple clusterings are detected alternatively based on an optimization procedure that incorporates terms for cluster quality and novelty relative to existing solution. Once new clusters are detected,outlier factors can be estimated from a new definition for outliers( cluster based outlier), which provides importance to the local data behavior. Experiment shows that the proposed algorithm can detect outliers which exist in different clusterings effectively even in high dimensional data sets.  相似文献   

13.
当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,为此,文中提出了一种基于连通图动态分裂的聚类算法.首先构造数据集的l-连通图,然后采用动态分裂策略对l-连通图进行分割,把数据集分成多个互不相连的连通图子集,每个连通图子集为一类.实验结果表明,所提出的算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题,具有广泛的适用性.  相似文献   

14.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

15.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

16.
现有配电网连接验证工作将可疑异常值视为具有二元属性的独立个体,因此难以有效识别和验证具有高度内在相关性的局部离群组.针对这一问题,提出了基于AP-LOF离群组检测的配电网连接验证方法.通过引入近邻传播(affinity propagation,AP)聚类方法,将待校验台区用户聚类为多簇,并基于局部离群因子(local outlier factor,LOF)算法对所有簇心进行离群点检测,从而准确识别出台区内的离群组用户.以某电力公司实际用户电压数据进行算例分析,结果证明了AP-LOF算法在配电网连接验证中的适用性和有效性.  相似文献   

17.
K-means算法是聚类方法中常用的一种划分方法.基于扩展划分的思想,提出了一种基于扩展的K-means聚类算法(EK-means),在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K-means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况.该算法使用了基于距离的技术来处理孤立点,引进了一种基于扩展的方法进行聚类.实验表明该算法可扩展性好,能够很好的识别出孤立点或噪声,并且有很好的精度.  相似文献   

18.
基于单元的快速的大数据集离群数据挖掘算法   总被引:1,自引:0,他引:1  
提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD-tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被过滤掉,从而避免了大量不必要的计算。实验表明,该算法能快速准确地从大数据集中挖掘出离群数据,并提高离群数据的检测速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号