首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

2.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

3.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

4.
基于层次分析法对统计性群体决策问题进行了研究,首先建立了群体决策的概率模型;然后按判断矩阵是方阵和三角阵的2种情况,用极大似然法推导出由各个体判断矩阵求群权矢量的几种迭代公式;接着对一个数例,用若干种公式进行了计算比较。  相似文献   

5.
针对时空数据环境下的城市交通异常检测问题,文章提出一种基于集体离群点挖掘的“线下拟合-线上检测”一体化检测模型。该模型采用以距离-密度-权重为度量的改进聚类(distance-density-weight k-medoids, DDWK-medoids)算法,根据城市交通态势自适应确定交通枢纽点的数量和位置,通过对数据进行不同分辨率拟合,将交通流量异常检测与交通轨迹异常检测相结合。在该检测模型中,数据的时间属性与空间属性均未以数值的形式直接参与计算,有效降低了运算复杂度。实验结果表明,该模型算法对于不同规模数据集的处理速度均显著优于对比算法,尤其是对于样本充足的大规模数据集,检测的准确率更具有明显优势。  相似文献   

6.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

7.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

8.
基于信息熵的相对离群点的检测方法:ENBROD   总被引:3,自引:0,他引:3  
提出一种检测离散属性数据集中相对离群点的算法.目前已有的关于离群点的检测方法大多关注连续属性的数据集,由于离散属性值之间并没有类似于连续属性值之间那样固有的距离度量关系,故不能简单的把用于连续属性数据集的检测算法应用到离散属性数据集中来.本文首先引入了一种新的信息熵增量的概念--去一划分信息熵增量,通过形式化分析得到了其性质.然后,在去一划分信息熵增量的基础上,给出了每个对象所对应的相对离点群因子(ROF)的定义.每个对象的ROF是相对的,因为其只取决于这一对象的邻域.接着,提出了ENBROD算法来实现对ROF的计算.最后,通过实验说明当邻域大小较小时,ENBROD算法可以找到已存在的方法所找不到的相对离群点;而当邻域的大小足够大时,ENBROD算法寻找全局离群点的能力也与其他的一些离群点检测算法的能力相近.  相似文献   

9.
陈蓉  李艳萍 《科学技术与工程》2012,12(35):9725-9729
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。  相似文献   

10.
基于有权重支持度框架的关联规则挖掘算法和超图分割算法, 给出一种新的基于有权重超图模型的离群点检测算法WHOT(Weighted Hypergraph based Outlier Test). WHOT算法根据有权重支持度的定义, 重新设计了基于有权重支持度框架的关联规则挖掘算法, 并挖掘出数据集中的重要关联规则, 形成超图. 在超图上应用超图分割算法, 得到聚类集合, 再结合项权重和事务权重的定义, 判断一条记录是否为离群数据.  相似文献   

11.
分析了OFDM系统模型,介绍了频率偏移估计算法,并通过仿真分析验证了基于信道估计的辅助导频信号的频偏估计算法的优点。  相似文献   

12.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

13.
基于Mellin变换的G0分布参数估计方法   总被引:1,自引:0,他引:1  
G0分布模型具有广泛均匀度变化下的杂波区域建模能力和较强的模型兼容性,是目前合成孔径雷达(synthetic aperture radar,SAR)图像杂波统计建模领域最为重要的模型之一,在SAR图像解译方面有着广泛的应用.然而,G0分布参数的快速准确估计一直是制约其实际应用的主要技术瓶颈,至今尚无理想的解决方案.针对这一问题,首先详细分析了经典矩估计和最大似然估计应用于G0分布参数估计的理论缺陷。在此基础上,提出了一种基于Mellin变换的G0分布参数估计方法.该方法以Mellin变换为出发点,详细推导了G0分布对应的第一个、第二个第二类型的特征函数和它们各自对应的对数矩和对数累积量,最终获得了G0分布参数估计简洁的迭代表达式.该方法不但解决了矩估计所面临的参数不能实现全范围估计的难题,更重要的是把等效视数同形状参数、尺度参数一样视为待估计参数,且能够快速准确地迭代出它们的估计值,保证了G0分布的拟合精度.以KL(Kullback—Leibler)度量、MSE(meansquareerror)度量和K—S(Kolmogorov Smirnov)检验为定量评估准则,对不同分辨率、不同视数的实测SAR图像分别采用文中方法、矩估计、最大似然估计方法进行拟合实验,实验结果的全面对比分析证明了所提方法的有效性.  相似文献   

14.
基于Mellin变换的G0分布参数估计方法   总被引:1,自引:0,他引:1  
G0分布模型具有广泛均匀度变化下的杂波区域建模能力和较强的模型兼容性,是目前合成孔径雷达(synthetic aperture radar,SAR)图像杂波统计建模领域最为重要的模型之一,在SAR图像解译方面有着广泛的应用.然而,G0分布参数的快速准确估计一直是制约其实际应用的主要技术瓶颈,至今尚无理想的解决方案.针对这一问题,首先详细分析了经典矩估计和最大似然估计应用于G0分布参数估计的理论缺陷,在此基础上,提出了一种基于Mellin变换的G0分布参数估计方法.该方法以Mellin变换为出发点,详细推导了G0分布对应的第一个、第二个第二类型的特征函数和它们各自对应的对数矩和对数累积量,最终获得了G0分布参数估计简洁的迭代表达式.该方法不但解决了矩估计所面临的参数不能实现全范围估计的难题,更重要的是把等效视数同形状参数、尺度参数一样视为待估计参数,且能够快速准确地迭代出它们的估计值,保证了G0分布的拟合精度.以KL(Kullt)ack-Leibler)度量、MSE(mean square error)度量和K-S(Kolmog-orov-Smirnov)检验为定量评估准则,对不同分辨率、不同视数的实测SAR图像分别采用文中方法、矩估计、最大似然估计方法进行拟合实验,实验结果的全面对比分析证明了所提方法的有效性.  相似文献   

15.
OFDM系统中频偏估计方法是基于嵌入在数据帧中的循环前缀进行频偏估计,结果表明只利用一个符号的循环前缀误差较大,采取扩大符号范围,可以得到较满意的估计效果。提出一种将一个符号倒序后采取最大似然法进行估计。仿真结果表明,能显著提高精确度。  相似文献   

16.
本文给出了多元离散均值变点模型和具有多维正态分布的均值变点问题的递推估计方法。  相似文献   

17.
基于离群点检测的K-means算法   总被引:1,自引:0,他引:1  
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

18.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

19.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号