共查询到20条相似文献,搜索用时 46 毫秒
1.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性. 相似文献
2.
对两种常用的空间离群点检测算法进行简单的介绍,并通过实验对算法进行比较,分析了这两种空间离群点检测算法的优缺点,以及导致它们差异的具体原因。这对寻找更好的空间离群点检测算法具有实用意义。 相似文献
3.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线
性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的
参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之
间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值
的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。
与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一
条新的途径。 相似文献
4.
基于离群点检测的K-means算法 总被引:1,自引:0,他引:1
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。 相似文献
5.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点. 相似文献
6.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度. 相似文献
7.
基于nested-loop的大数据集快速离群点检测算法 总被引:1,自引:0,他引:1
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 相似文献
8.
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性. 相似文献
9.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘. 相似文献
10.
通过对当前有代表性的离群数据检测方法的分析和比较,总结了各方法的特性及优缺点.针对大数据的数据量大、维数高的特性,分析了离群点检测方法的改进策略,并以T-ODCD算法和AROD算法为例,进一步说明离群点检测改进策略. 相似文献
11.
探讨Credit-Recovery分布式并行终止检测的算法,并对算法的不足之处进行改进,提出了改进后的算法模型和描述.通过理论分析和验证,表明该模型适用于非集中式分布式并行计算的终止检测,并提高了精确度和性能. 相似文献
12.
并行计算是当今数值计算发展的新方向。该文在网络并行环境下探讨了并行遗传算法(PCA)进行结构优化设计及其算法的实现方法。利用4台PC机组成网络平台,进行了钢桁架结构优化设计的数值测试。计算结果表明,设计的并行算法在网络并行计算环境中具有较高的加速比和效率,同时验证了并行遗传算法用于结构优化是可行的和有效的。 相似文献
13.
一种改进的聚类和孤立点检测算法 总被引:1,自引:0,他引:1
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点. 相似文献
14.
《东华大学学报(英文版)》2015,(4)
A novel approach for outlier detection with iterative clustering( ICOD) in diverse subspaces is proposed. The proposed methodology comprises two phases,iterative clustering and outlier factor computation. During the clustering phase, multiple clusterings are detected alternatively based on an optimization procedure that incorporates terms for cluster quality and novelty relative to existing solution. Once new clusters are detected,outlier factors can be estimated from a new definition for outliers( cluster based outlier), which provides importance to the local data behavior. Experiment shows that the proposed algorithm can detect outliers which exist in different clusterings effectively even in high dimensional data sets. 相似文献
15.
面向复杂产品交互虚拟装配操作的并行碰撞检测算法 总被引:2,自引:0,他引:2
运动对象间碰撞检测是交互式虚拟装配的一个基本问题,提出一种虚拟环境中运动对象间的并行化碰撞检测方法.该方法使用一种并行的、基于区域分割和快速相交校验排序的分解算法来包围盒层次模型,检测计算时依据用户的操作动态决定碰撞检测对以减少检测计算量,同时基于微机和局域网的并行方法来计算模型间碰撞,两个模型间碰撞检测时使用包围盒层次树动态更新方法.随后,以某型汽车底盘虚拟装配时的实时碰撞检测来验证算法性能.结果表明,该方法可以快速建立包围盒层次树模型,并可在交互操作中完成给定精度的实时碰撞检测. 相似文献
16.
17.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。 相似文献
18.
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。 相似文献
19.
PVM(ParallelVirtualMachine)是异构计算环境下消息传递模型实际应用的成功范例.它将计算机网络上的各种机器抽象映象成一台具有高性能计算潜力的虚拟并行机,构成开发和运行大型并行应用软件的灵活、简洁且完整的程序设计环境,在分布式高性能计算领域为人们所广泛接受,成为网络并行计算技术领域中消息传递程序设计模型的事实标准之一.本文介绍PVM的结构、模型和技术发展;分析了典型应用和实验数据,最后对PVM进行评价并给出结论. 相似文献
20.
介绍了一种并行计算的实现方法.通过在顺序程序中加入两种进程操作原语,用户就能使其应用程序在分布式环境下并行执行,从而提高速度. 相似文献