首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于改进距离的孤立点检测方法   总被引:1,自引:0,他引:1  
局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

2.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

3.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

4.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

5.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

6.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

7.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

8.
在基于距离的孤立检测算法的基础上,讨论了基于距离和的孤立点检测算法,并将CURE聚类算法中使用的抽样算法应用于对该算法中的数据抽取,并创新地将该算法应用于纳税行为分析.结果表明,此算法可以有效地检测出纳税行为中的异常现象即孤立点,对纳税行为的分析有非常有效的作用.  相似文献   

9.
针对入侵检测中异常点误报率较高的问题,提出了改进KNN与异常点检测算法相结合来处理数据的方法,以降低入侵检测误报率.该方法首先采用卡方特征选择方法进行数据特征选择,其次采用孤立森林、距离、局部异常因子(IDL)结合查找出异常点,然后使用SMOTE平衡数据,使得所有的样本达到一个类平衡状态,再采用KNN分类.最后采用公开...  相似文献   

10.
为了从数据集中快速有效地发现孤立点,提出了一种基于网格模型的孤立点检测方法,给出了数据空间的网格划分,定义了网格内孤立点存在性阈值,提出了基于网格的孤立点检测算法,在保证算法有效性的前提下,降低了算法的时间复杂度。  相似文献   

11.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

12.
基于纵横距离的单纯异常点检测算法及应用   总被引:1,自引:0,他引:1  
首先讨论了异常点挖掘在数据挖掘过程中的重要性,产生异常点的原因,以及目前用于检测异常点的常用算法,指出了单纯应用距离法的局限性,提出了基于纵横距离的异常点检测算法,并给出了基于学生成绩检测的应用实例,该方法不需要进行大量的样本训练,在异常点检测方面有较好的效果.  相似文献   

13.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

14.
介绍了离群数据挖掘的基本概念,全面分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,并对一些典型方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。  相似文献   

15.
以现有离群挖掘技术为基础,结合已提出的离群约简与关键域子空间等一系列概念及其搜索算法,定义了离群最近邻、原子离群类及离群变异类等概念,提出了离群簇分析及离群趋势分析方法,建立了一种完整的离群数据集特征描述及延伸知识发现的整体框架CEKDO,以期对离群数据分类、产生来源、含义、行为特征以及离群趋势等进行全面分析,提出了离群分析的步骤。通过对移动通信业务数据的离群分析进行具体讨论,说明了这种离群延伸知识发现框架的实际应用。  相似文献   

16.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

17.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

18.
Clustering data with varying densities and complicated structures is important,while many existing clustering algorithms face difficulties for this problem. The reason is that varying densities and complicated structure make single algorithms perform badly for different parts of data. More intensive parts are assumed to have more information probably,an algorithm clustering from high density part is proposed,which begins from a tiny distance to find the highest density-connected partition and form corresponding super cores,then distance is iteratively increased by a global heuristic method to cluster parts with different densities. Mean of silhouette coefficient indicates the cluster performance. Denoising function is implemented to eliminate influence of noise and outliers. Many challenging experiments indicate that the algorithm has good performance on data with widely varying densities and extremely complex structures. It decides the optimal number of clusters automatically.Background knowledge is not needed and parameters tuning is easy. It is robust against noise and outliers.  相似文献   

19.
为了提高交通建模的准确性和可靠性,或者提取重要的有价值的隐藏信息,将离群数据挖掘技术引入交通数据处理.首先分析了3种典型的离群数据挖掘算法:基于统计的方法、基于距离的方法以及基于密度的方法的原理、特点和时间复杂性;其次给出了2个实例分析,一是在建立交通流量预测模型前,将基于统计的方法和基于距离的离群检测方法分别用于交通量时间序列,寻找离群数据;二是将基于距离的方法和基于密度的方法用于路面平整度检测.实例研究表明,离群数据挖掘算法可有效识别异常交通数据,在交通工程领域具有较大的应用潜力.  相似文献   

20.
异常点挖掘的意义主要体现在两个方面.传统观念中,异常点常常被认为是噪声数据或无用数据,分析时的一般方法是排除这些干扰数据,更好地估计模型的参数.然而,随着Lon-Mu Liu.et(2001)在快餐行业的数据中进行了实例分析,异常点挖掘也被用于挖掘异常点本身所蕴含的信息.ARIMAX模型引入了外部变量,可以更好地拟合数据.因而对含异常点的ARIMAX模型,提出了利用Gibbs抽样挖掘其中AO型异常点的方法,最后进行了模拟试验,取得了较好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号