首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
现有的离群检测方法大多都忽视离群数据的上下文信息,使得离群数据难以理解。从离群数据的可解释性角度,采用微粒群算法(PSO),给出了一种上下文有关的离群数据挖掘算法(COMPSO)。该算法将数据属性作为上文有关信息,且将离群数据看作微粒;根据数据对象相对全局数据的频数,采用带有变异算子的PSO算法来搜索离群数据;最后UCI数据,实验结果验证了该算法的有效性,并具有效率高、可解释性强等特点。  相似文献   

2.
利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法 WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基于Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性。  相似文献   

3.
将高维数据投影在子空间中,是解决"维灾"的有效途径之一。从提高挖掘效率的角度,给出一种新的基于子空间的两阶段离群检测算法,利用密度阈值筛选候选离群对象减少计算量。该算法首先,计算每个数据对象在每一维的密度比,所有维的密度比乘积取对数平均作为密度系数,并选取候选离群对象;其次,候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。  相似文献   

4.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

5.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

6.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

7.
为了研究局部离群数据挖掘方法,将K均值聚类算法和基于影响空间的局部离群因子算法相结合,构造了一种基于K均值和影响空间的局部离群因子的方法.该方法首先通过聚类把靠近簇中心密集区域的正常数据剔除,然后再调用INFLOF算法对剩余数据进行挖掘,从而减少了中间结果的存储,大大减少了算法的运行时间.最后分别通过随机数据和实际数据实验,验证了KINFLOF算法在离群数据挖掘中的准确性和运行效率.  相似文献   

8.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

9.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

10.
基于单元的离群数据挖掘是一类典型的离群数据挖掘方法,尽管具有可以快速识别离群数据和修剪非离群数据等优点,但由于只从单元的角度修剪非离群数据,可能使一些单元无法准确的确定离群数据。给出了一种基于网格单元和P权值的离群数据挖掘算法。该算法首先将数据集的每维均分,划分网格单元,并在网格单元中,筛选出离群数据和正常数据网格单元;对既含有离群数据又有正常数据的网格单元,采用P权值的方法,来度量和确定离群数据,从而进一步提高了离群挖掘精度;最后,采用UCI数据集,实验验证了该算法的有效性和可行性。  相似文献   

11.
针对高维数据出现的"维灾"、稀疏性问题及各属性维自身具有的特点,采用高斯混合模型定义的相关子空间,给出一种投影聚类分析算法.首先,采用KNN,得到各个数据对象的局部数据集LDS,并引入稀疏因子生成稀疏度矩阵,而后依据高斯混合模型和稀疏度矩阵,识别出相关子空间和不相关子空间;其次,根据相似性度量,剔除稀疏数据和无关属性维...  相似文献   

12.
利用MapReduce编程模型的简化性和期望最大化算法(Expectation maximization,EM)的高精度、恒收敛性,提出了一种对数据集规模无限制的数据处理算法;并通过对高斯混合模型的参数估计进行算法性能的测试。结果表明,算法能改善传统EM算法在处理大规模数据集时效率低的缺点,具有较好的加速比及可扩展性。  相似文献   

13.
在动态增加的数据库环境下,异常数据挖掘中二次挖掘时需重新计算数据集中所有数据对象的局部离群因子的超高时间复杂度问题,在Ioc LOF算法中得到解决并取得良好效果.当向数据库中同时增加多条数据对象时,其算法时间效率下降很快.本文提出一种新的异常数据挖掘算法,先用改进型OPTICS算法进行聚类,然后调用Inc LOF算法仅对部分受影响的数据对象计算局部离群因子.通过实验结果表明,与传统的Inc LOF算法相比,本文提出的算法在动态增加的数据库实验环境下,不仅算法时间效率得到提高,在异常数据挖掘的精度方面也有一定的优化.  相似文献   

14.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

15.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

16.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

17.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

18.
大数据时代环境下,火电厂大量数据被存储到数据库中而不能被充分利用,由于双进双出钢球磨煤机系统的复杂性,很难建立其准确的机理数学模型,为此提出一种基于大数据挖掘的建模方法.首先分析影响磨煤机料位的因素,提取现场海量的实际运行数据,在Hadoop平台下利用K-Means聚类算法删除离群点,利用主成分分析法(PCA)降维完成属性约简,然后在MapReduce架构上采用分布式支持向量机(D_SVM)建立模型,实现计算并行化.结果表明,采取该方法提高了建模效率,所建立的模型具有很高的精确度,且具有很好的泛化能力,该模型可以用于表征实际料位的特性.  相似文献   

19.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

20.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号