首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。  相似文献   

2.
结合基于有权重支持度框架的关联规则挖掘方法和基于超图模型的离群点检测方法,给出了一种离群数据的改进定义,并通过一个简单的实例说明了这种离群数据的离群含义,且与原离群点定义做了比较,分析了新定义离群数据的应用价值.  相似文献   

3.
将高维数据投影在子空间中,是解决"维灾"的有效途径之一。从提高挖掘效率的角度,给出一种新的基于子空间的两阶段离群检测算法,利用密度阈值筛选候选离群对象减少计算量。该算法首先,计算每个数据对象在每一维的密度比,所有维的密度比乘积取对数平均作为密度系数,并选取候选离群对象;其次,候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。  相似文献   

4.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

5.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

6.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

7.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

8.
目前,对于离群数据挖掘算法研究颇多,但对于离群数据挖掘结果可理解性和可解释性的研究相对较少。采用相关子空间,给出一种MapReduce编程模型下的上下文离群数据挖掘算法。该算法利用局部稀疏差异度,确定相关子空间,并计算其数据对象离群因子值;将离群因子和相关属性维,定义为数据对象的上下文信息,提高了数据对象的可理解性;选取离群因子最大的N个数据对象,作为上下文离群数据;利用MapReduce编程模型,实现了一种上下文离群数据并行挖掘算法;最后,采用UCI数据集,实验验证了该算法的可解释性和有效性。  相似文献   

9.
现有离群数据研究主要集中于离群检测.为了对离群数据的来源、分类、含义、行为特征以及离群趋势等进行全面分析,以现有离群挖掘技术为基础,结合已提出的离群约简与关键域子空间等一系列概念及其搜索算法,定义了离群最近邻、原子离群类及离群变异类等概念,提出了离群簇分析及离群趋势分析方法,建立了一种完整的离群数据集特征描述及延伸知识发现的整体框架.通过对移动通信业务数据的离群分析进行具体讨论,表明了这种离群延伸知识发现框架在实际应用中的有效性.  相似文献   

10.
一种基于面包含关系的GML空间离群面检测算法   总被引:2,自引:0,他引:2  
为了研究基于空间拓扑关系的离群检测,提出了一种基于面包含关系的离群面检测算法DOR_IR.它采用算法PLI判断面包含关系,并把面包含的对象看作面对象的属性,建立面对象的密度连通集合,相应于"噪音"的面就是离群面.运用算法DOR-IR分别在人工数据集和真实数据集上进行了测试,实验结果表明,算法DOR_IR能有效挖掘基于拓扑包含关系的离群面.  相似文献   

11.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

12.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

13.
以现有离群挖掘技术为基础,结合已提出的离群约简与关键域子空间等一系列概念及其搜索算法,定义了离群最近邻、原子离群类及离群变异类等概念,提出了离群簇分析及离群趋势分析方法,建立了一种完整的离群数据集特征描述及延伸知识发现的整体框架CEKDO,以期对离群数据分类、产生来源、含义、行为特征以及离群趋势等进行全面分析,提出了离群分析的步骤。通过对移动通信业务数据的离群分析进行具体讨论,说明了这种离群延伸知识发现框架的实际应用。  相似文献   

14.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

15.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

16.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

17.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

18.
基于局部密度的差异来发现离群点的检测方法很难处理离群点聚集在一起的情况,提出一种基于密度的离群点检测方法,该方法先采用DBSCAN聚类算法检测出全局离群点,然后借鉴局部离群因子的评估策略来确定大类簇边界区域内的"错聚"样本点,进而从"错聚"样本点的邻居点中依据距离和局部密度识别出其他局部离群点。实验结果表明该方法具有一定的可行性和有效性。  相似文献   

19.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

20.
基于有权重支持度框架的关联规则挖掘算法和超图分割算法, 给出一种新的基于有权重超图模型的离群点检测算法WHOT(Weighted Hypergraph based Outlier Test). WHOT算法根据有权重支持度的定义, 重新设计了基于有权重支持度框架的关联规则挖掘算法, 并挖掘出数据集中的重要关联规则, 形成超图. 在超图上应用超图分割算法, 得到聚类集合, 再结合项权重和事务权重的定义, 判断一条记录是否为离群数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号