首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
孤立点挖掘在教务管理中的应用研究   总被引:2,自引:0,他引:2  
孤立点挖掘是一个重要的知识发现任务,在介绍孤立点及其挖掘算法的基础上,利用孤立点检测方法对教务管理系统中积累的数据进行分析,并提出基于距离和的孤立点检测算法。实验结果分析表明,该算法降低了检测过程对用户设置阀值的要求,在时间复杂度上,稍微优于循环一嵌套算法。  相似文献   

2.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

3.
基于改进距离的孤立点检测方法   总被引:1,自引:0,他引:1  
局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

4.
基于孤立点和初始质心选择的k均值算法的改进与应用   总被引:1,自引:0,他引:1  
针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法.首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验.结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低.  相似文献   

5.
基于2d-距离改进的K-means聚类算法研究   总被引:1,自引:0,他引:1  
为了解决原始K-means算法随机选取聚类中心对聚类结果产生较大影响的不足和孤立点的存在对聚类精度的破坏,以及两者之间的相互牵制性,采用基于2d-距离的DKC值来对原始样本数据集进行预处理以分辨孤立点,同时确定初始的聚类中心,达到消除两者相互影响的效果,使得聚类中心相对稳定,改进后的算法较原始的算法在准确度上得到了改进。  相似文献   

6.
改进的k-均值算法在聚类分析中的应用   总被引:1,自引:0,他引:1  
介绍了在聚类中广泛应用的经典k-均值算法,并针对其易受随机选择初始聚类中心和孤立点的影响的不足,给出了改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行了改进。并做了改进前后的对比实验和应用。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择初始聚类中心的影响也有所降低。  相似文献   

7.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

8.
基于相似系数和的孤立点检测算法   总被引:1,自引:0,他引:1  
简要介绍了一个基于相似系数和的孤立点检测聚类算法,指出了它的局限性,在此的基础上,文中提出了一个改进的算法.算法的思想是,对数据集进行标准化,然后构造一个相似系数矩阵,通过对象的相似系数之和判断对象的孤立程度.改进后的算法除了可以检测出倍数异常孤立点外,还可以检测出分量异常孤立点.  相似文献   

9.
文章讨论了孤立点检测在零售业中的应用,并在基于距离和的孤立点检测算法基础上,对孤立点的具体位置做了进一步的确定,结合实际数据进行了验证分析,分析结果表明,此方法不仅可以有效的检测出零售业中消费者购买行为的波动情况,而且可以确定出孤立点的位置。  相似文献   

10.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

11.
GDLOF:基于网格和稠密单元的快速局部离群点探测算法   总被引:1,自引:0,他引:1  
为了适应高维大规模数据集的稀疏性,解决现有离群点探测算法在运用于高维大规模数据集时计算量以及时间效率均无法令人满意的现状,区别于以往文献中以点的数量作为判断稠密的阈值,在基于密度的局部异常检测算法LOF的基础上,以通过数据集中每一点周围的邻近点的状况作为判别依据,提出了稠密单元和稠密区域的概念以及基于网格和稠密单元的快速局部离群点探测算法.通过证明稠密单元和稠密区域中的点不可能成为离群点,使得算法减少了LOF值的计算量并显著提高效率.实验表明,该算法对于高维大规模数据集具有良好的适用性和有效性.  相似文献   

12.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

13.
Outlier detection is a very important type of data mining,which is extensively used in application areas.The traditional cell-based outlier detection algorithm not only takes a large amount of time in processing massive data,but also uses lots of machine resources,which results in the imbalance of the machine load.This paper presents an algorithm of the MapReduce-based and cell-based outlier detection,combined with the single-layer perceptron,which achieves the parallelization of outlier detection.These experiments show that this improved algorithm is able to effectively improve the efficiency of the outlier detection as well as the accuracy.  相似文献   

14.
在 k-近邻局部异常检测算法的基础上,采用基于主成分分析的多元时间序列的降维方法,依据累积贡献率选择主成分序列,给出了一种效率较高的多元时间序列异常检测算法.实验结果表明:该算法可以较好地提高多元时间序列异常检测的效率  相似文献   

15.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

16.
通过充分调研,对现有离群数据检测算法作了分析比较,总结出各算法的特点,并且探讨和展望了离群数据检测的几个热点问题,为离群数据检测算法的进一步研究打下基础。  相似文献   

17.
基于残差思想的异常数据检测方法的关键之处在于对数据的准确预测.针对这一问题,提出基于改进径向基网络(radial basis function network,RBFN)的过程工业时间序列预测方法,该方法通过改变RBF网络的输入形式,使改进后的RBF网络能够更方便地引入遗忘因子以及惩罚因子,以适应于基于残差思想的异常数据检测方法要求的动态性能和鲁棒性.通过理论证明改进的RBF网络与传统RBF网络的等效性,并通过实验比较证明改进后的RBF网络较传统的网络结构更简单,参数意义更明确.  相似文献   

18.
基于不确定数据的表示模型, 针对属性级不确定数据, 提出一种不确定数据生成算法AC UDGen(attribute level continuous uncertain data set generation algorithm). 该算法通过引入离群点检测 LOF(local outlier factor)算法, 用每个数据对象的离群因子作为参数来控制不确定数据对象的扰动范围, 可很好地满足原始数据的分布特征, 解决了目前工作中缺乏原始数据分布特征的问题. 实验结果表明, 该算法生成的不确定数据集具有更好的聚类效果, 并降低了离群点对聚类结果的影响, 使每个数据对象MBR(minimum bounding rectangle)的大小可根据自身的分布特征自适应地变化.  相似文献   

19.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号