首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
研究局部切空间排列方法(LTSA)对离群点的敏感性,提出一种基于离群点检测的鲁棒局部切空间排列方法(RLTSA).该方法用样本点到切空间的投影距离检测离群点.在构造样本点局部邻域时,RLTSA尽可能排除离群点,以构造稳定的局部邻域,而对离群点,RLTSA把它们投影到更高维的切空间,以减少离群点的投影距离. 模拟实验和实际例子说明,新方法能提高局部切空间排列方法处理离群样本点的能力.  相似文献   

2.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

3.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

4.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

5.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

6.
针对传统离群点检测方法精确度不高的问题,提出了一种同时基于全局和局部视野综合考虑的离群点检测方法,并将其成功应用于事务图数据集的离群点检测。该方法利用极大公共频繁子图来测量任意两个事务图之间的相似度,提出利用基于公共近邻的裁剪方法对相似矩阵进行裁剪,通过计算数据结点的往返距离得出各个结点的离群值评分,弥补了传统基于稳态分布随机游走的离群点检测方法的缺陷。实验结果表明:该方法在事务图数据离群点检测方面的性能明显优于基于subdue的方法,精确度和错误报警率以及召回率提高了约10%。  相似文献   

7.
为度量在网络日志中网页分类模型的预测结果,将度量为可信的结果加入网址分类集合,提高网络日志中访问链接的分类效率,提出一种基于离群点检测的分类结果置信度的度量方法.采用基于Bagging构建多个弱分类器对待分类数据进行预测,并对每个预测结果构建各类别的概率向量,根据离群点检测来度量模型的预测结果是否为可信.在UCI公共数据集上,使用主流的基于k均值和基于局部密度的度量方法进行了对比实验.实验结果表明,应用基于离群点检测的分类结果置信度,基于k均值的度量方法和基于局部密度的度量方法均显著提高了准确率.另外,在工程项目爬取的网页分类中也取得了同样的效果.  相似文献   

8.
[目的]直接利用模糊C均值(FCM)对原始数据进行聚类,容易导致聚类结果受到噪声和离群点的影响,但通常利用松弛技术对样本点模糊隶属度或空间位置关系进行松弛的解决方法只能降低,而无法完全剔除噪声和离群点的影响.为了解决这个问题,提出了基于截断技术的鲁棒模糊C均值(TRFCM)聚类算法.[方法]基于模糊局部信息C均值(FLICM)聚类模型,通过引入截断技术,提出TRFCM算法.该算法的主要思路为:(1)利用FLICM,在学习数据聚类结构的同时保留样本点的局部邻域结构;(2)基于FLICM的聚类结果动态调整原始数据,使其满足期望的聚类结构;(3)将聚类结构特征学习与原始数据的调整(即截断掉部分样本点),统一在一个优化框架中,从而实现组合最优化.将TRFCM算法与近年来相关算法进行比较以检验TRFCM的参数敏感性、收敛性、鲁棒性、时效性等性能.[结果]实验包括5个部分:参数敏感性与收敛性分析、鲁棒性检验、图像分割实验、Benchmark数据集实验和各算法计算时间对比实验.在参数敏感性和收敛性分析中,TRFCM算法在合适的范围内对参数不敏感且在大多数情况下可以获得良好的聚类效果.同时,算法对各数...  相似文献   

9.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

10.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

11.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

12.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

13.
针对基于栈式自编码器的离群点(SAE)检测算法和基于密度的离群点(LOF)检测算法检测精度不高的问题,提出了将SAE算法和LOF算法相结合的SAE-LOF算法.该算法的核心是对单独的SAE算法和LOF算法加入"投票"思想,通过神经网络训练权重,计算SAE算法和LOF算法加权投票结果,进而检测离群点.首先,训练并测试SA...  相似文献   

14.
对密度峰值聚类算法进行有效改进,计算各样本点之间的距离和各样本点局部密度,选择两者中较大的样本点作为聚类中心点,根据其余样本点与各中心点的距离设定样本点所属类别;引入K近邻算法对密度峰值聚类算法进行优化,求解各样本点的距离时只需要考虑其周围由邻近值决定的若干样本点,实现距离阈值的自动选取;根据距离矩阵计算样本点的密度,绘制决策图并选择簇内中心点,将剩余点根据密度值分配给离中心点距离最近的类;最后将K近邻-密度峰值聚类算法部署至Hadoop云计算平台,用于解决大规模数据聚类的问题。仿真结果表明,通过合理设置K近邻算法的近邻值k,K近邻-密度峰值聚类算法具有较好的大数据样本聚类性能,与常用聚类算法相比,该算法具有更高的聚类准确率和聚类效率,适用于大数据样本聚类。  相似文献   

15.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

16.
针对多模态过程数据密度不规则性提出的一类基于密度的方法,大多是以欧式距离为基础来比较彼此间的相似性,从而检测过程是否发生故障。然而多模态数据密度在较小范围内变化较大,采用欧式距离很难获得全面的数据信息。本文提出了一种新的基于加权距离选择邻居的策略,该策略首先对距离进行合理的加权,再根据新的加权距离重新选择样本点的邻居,能有效地避免数据信息不全面的问题。在仿真实验中,首先通过比较基于传统的欧式距离和基于本文加权距离选取的邻居,说明本文策略的优越性;进而将该策略与局部离群因子(Local Outlier Factor,LOF)结合用于TE过程,对TE过程的仿真结果表明该策略在应用于基于密度的检测方法上获得了的良好效果。  相似文献   

17.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

18.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

19.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

20.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号