首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
2.
介绍了离群数据挖掘的基本概念,全面分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,并对一些典型方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。  相似文献   

3.
基于单元的快速的大数据集离群数据挖掘算法   总被引:1,自引:0,他引:1  
提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD-tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被过滤掉,从而避免了大量不必要的计算。实验表明,该算法能快速准确地从大数据集中挖掘出离群数据,并提高离群数据的检测速度。  相似文献   

4.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

5.
通过充分调研,对现有离群数据检测算法作了分析比较,总结出各算法的特点,并且探讨和展望了离群数据检测的几个热点问题,为离群数据检测算法的进一步研究打下基础。  相似文献   

6.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

7.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

8.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

9.
史望聪  耿健 《科技资讯》2009,(17):27-27,29
数据挖掘技术是一门综合多个学科从数据中寻找规律的技术,该技术已经成功地应用于金融分析、市场分析、客户关系管理等多个行业。在数据的采集和数据的传输过程中,我们为了保证数据的可靠性及准确性,要对数据进行预处理,改变缺失及异常情况。本文主要介绍数据挖掘的一些基本概念及一种基于遗传算法的数据预处理的方法。  相似文献   

10.
基于离群点检测的K-means算法   总被引:1,自引:0,他引:1  
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

11.
随着人们对数据质量、欺诈检测、网络入侵、故障诊断、自动军事侦察等问题的关注,异常点挖掘在信息科学研究领域日益受到重视.本文首先给出异常点的定义,并在聚类分析的基础上对PAM算法、BIRCH算法、DBSCAN算法和CURE算法在算法效率、适合的数据类型、发现的聚类类型、对异常数据的敏感性、空间复杂性、时间复杂性、使用的方法等方面进行了比较研究,最后给出了如何使用这些聚类算法处理异常点的方法.  相似文献   

12.
一种基于层次聚类的流数据挖掘方法   总被引:1,自引:0,他引:1  
流数据的特点在于数据流快速、有序地到达,并且数据海量,许多应用领域中生成的数据都可以归结为此类型.数据挖掘技术可以从海量的数据中发现有意义的知识模型,传统的数据挖掘算法通常是针对静态数据集,对流数据却无法有效地处理.文章试图从层次聚类角度处理流数据,并探讨了一种基于最小代价函数的层次聚类算法.  相似文献   

13.
基于数据挖掘的客户价值预测方法   总被引:1,自引:0,他引:1  
提出了一种利用聚类和分类等数据挖掘技术预测客户价值的新方法.通过对客户历史交易数据的分析,获得能够综合反映老客户忠诚度和价值度的指标.基于该指标对老客户进行聚类,将老客户划分为若干个不同价值的客户群,即为每个老客户赋予一个价值等级标号.利用朴素贝叶斯分类方法来预测新客户(或潜在客户)的价值,并依据预测结果来制定相应的重点客户发展战略.实例验证了该方法的有效性和可行性.  相似文献   

14.
企业在商业竞争中取胜的关键在于满足客户的需求,这使得CRM成为企业发展的焦点,基于数据挖掘的CRM也成为相关领域的一个研究热门。叙述了客户关系管理的概念、特征和基本作用,并在此基础上研究了数据挖掘技术在客户关系管理中的一些应用。  相似文献   

15.
统计数据中异常值的检验方法讨论   总被引:1,自引:0,他引:1  
  相似文献   

16.
基于核方法的分类型属性数据集模糊聚类算法   总被引:1,自引:0,他引:1  
针对分类型属性数据的聚类问题.将核方法的思想推广到快速、高效率的模糊c-均值算法,构造了基于核函数的模糊核c-均值聚类算法.该算法通过使用经验核矩阵充分利用了数据间的“相异性”信息,并且避免了模糊k-modes算法中每次迭代均要直接计算类中心的缺点,提高了聚类的精确度和稳定性.同时该算法对模式(类中心)的初始值选择不敏感.时实际的线性可分的和线性不可分的分类型属性数据集的仿真实验证明了该算法的有效性.  相似文献   

17.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号