首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

2.
通过充分调研,对现有离群数据检测算法作了分析比较,总结出各算法的特点,并且探讨和展望了离群数据检测的几个热点问题,为离群数据检测算法的进一步研究打下基础。  相似文献   

3.
SLOF算法采用了空间对象的空间属性和空间关系确定空间邻域,并结合非空间属性的权值来计算对象在其邻域内的离群度,但在计算属性权值时,仍然由邻域专家决定,存在人为因素.文中采用计算每个对象的每个非空间属性的去一划分信息熵增量,并通过这个值来反映各个属性对对象离群的贡献程度,给出一种改进的SLOF算法.实验结果表明,算法具有计算效率高和对用户依赖性小的优点.  相似文献   

4.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.  相似文献   

5.
一种基于离群数据挖掘的数据抽查新方法   总被引:1,自引:0,他引:1  
针对传统数据抽查方法很难保证数据抽查有效性的缺点 ,结合离群数据挖掘 ,给出了一种基于离群数据挖掘的数据抽查新方法 .通过实验表明 ,该方法既能克服了随机数据抽查难以保证抽查有效性的缺陷又能克服重点数据抽查对抽查者经验的依赖 ,从而保证了数据抽查的有效性和全面性  相似文献   

6.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

7.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

8.
针对隐私保护数据挖掘中的维数灾难问题,提出一种基于随机投影技术的隐私保护算法.该算法通过定义l投影扰动和Prevent-Ω数据集的概念,构造一种根据投影维数的不同,投影矩阵的稀疏度也相应变化的稀疏投影数据扰动,增加了数据的安全性.实验结果表明,在保护数据隐私的前提下,该算法能有效保证数据挖掘应用中的数据质量.  相似文献   

9.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

10.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

11.
一种基于粗糙集理论的数据挖掘算法的研究   总被引:6,自引:0,他引:6  
研究了粗糙集理论在数据挖掘中的应用,提出了一种基于粗糙集理论的数据挖掘算法.首先对信息系统的数据加工泛化,构造其二进制可辨矩阵.对矩阵进行化简得到属性约简并生成规则.最后,结合银行申请信用卡的实例,利用上述方法进行数据挖掘,消去冗余属性,抽取决策规则.  相似文献   

12.
为了解决定量数据中存在噪音数据或数据不完整的问题,并能从这些定量数据中挖掘出有效规则,在变精度粗集模型(VPRS)的基础上,采用定量数据的模糊处理方法,研究了定量数据挖掘算法。该算法可以从定量数据中挖掘出更客观、有效的决策规则。  相似文献   

13.
粗糙集理论是一种新的处理模糊和不精确问题的重要数学工具,是一种新的数据挖掘技术。本文主要研究基于粗糙集的数据挖掘的算法在规则提取阶段的应用。  相似文献   

14.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

15.
一种基于粗糙集理论的启发式分类规则挖掘算法   总被引:1,自引:0,他引:1  
粗糙集理论是一种新的数据挖掘算法,文章以属性依赖重要性作为启发信息提出了一种新的属性约简算法,且加入了一定的分类正确度。最后通过一个实例完整演示了本方法,证实其有效性。  相似文献   

16.
基于不确定数据的表示模型, 针对属性级不确定数据, 提出一种不确定数据生成算法AC UDGen(attribute level continuous uncertain data set generation algorithm). 该算法通过引入离群点检测 LOF(local outlier factor)算法, 用每个数据对象的离群因子作为参数来控制不确定数据对象的扰动范围, 可很好地满足原始数据的分布特征, 解决了目前工作中缺乏原始数据分布特征的问题. 实验结果表明, 该算法生成的不确定数据集具有更好的聚类效果, 并降低了离群点对聚类结果的影响, 使每个数据对象MBR(minimum bounding rectangle)的大小可根据自身的分布特征自适应地变化.  相似文献   

17.
基于粗糙集的数据挖掘   总被引:3,自引:0,他引:3  
粗糙集理论是一种研究不完整、不确定知识处理的数学工具 ,近几年来在机器学习、知识发现、算法研究、工程应用、决策支持系统以及模式识别等应用中取得了较好的成果 .阐述了粗糙集理论的基本思想 ,介绍了人工智能中数据挖掘的一般过程及其方法  相似文献   

18.
集对分析是处理不确定问题的一种新方法,近几年来在工程应用、决策支持系统等应用中取得了较好的成果.本文试图利用集对分析理论的基本思想,提出了一种基于集对分析的数据挖掘方法,并通过实例证实了该方法的有效性.  相似文献   

19.
随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注,异常点挖掘在信息科学研究领域日益受到重视.本文首先给出异常点的定义,并在聚类分析的基础上对PAM算法、BIRCH算法、DBSCAN算法和CURE算法在算法效率、适合的数据类型、发现的聚类类型、对异常数据的敏感性、空间复杂性、时间复杂性、使用的方法等方面进行了比较研究,最后给出了如何使用这些聚类算法处理异常点的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号