首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 175 毫秒
1.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

2.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

3.
针对DBSCAN算法的不足,提出了一种基于DBSCAN的自适应聚类算法.通过引入对象密度迅速地找到数据集中的核心样本,并从核心样本出发进行统计学分析得到Eps与MinPts之间的函数关系及相关的Eps与MinPts参数值,并利用所获参数值进行自适应的聚类;采用若干个仿真和真实数据集进行实验,评估该算法的有效性和可靠性.实验结果表明,该算法对密度不均匀数值型数据集和符号型数据集均有较好表现.  相似文献   

4.
为了提高电力负荷曲线聚类精度,文中提出了一种基于核主成分分析(KPCA)和改进K-means算法的电力负荷曲线聚类方法。该方法首先在划分聚类算法K-means基础上融入密度聚类思想,提出了融合密度思想的K-means算法(DK-means算法),并在电力负荷曲线实验集上对比分析其聚类效果;接着在实验集上比较各种降维算法的降维聚类精度和降维速度;最后分析KPCA+DK-means组合算法的降维聚类能力。结果表明,戴维森堡丁指数(DBI)更适合作为电力负荷曲线聚类评价指标;以DBI为评价指标,与K-means、BIRCH、DBSCAN和EnsClust 4种聚类算法相比,DK-means的聚类精度更高;与LLE、MDS、ISOMAP 3种非线性降维算法相比,KPCA的降维速度更快;KPCA+DK-means组合算法有良好的降维聚类能力,较DK-means在聚类精度和聚类效率上均有提升。KPCA+DK-means组合算法可以实现电力负荷曲线的高效降维、精确聚类,对用电行为模式的准确提取起关键技术支持作用。  相似文献   

5.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

6.
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.  相似文献   

7.
聚类技术是数据挖掘中的一项重要技术,它能够根据数据自身的特点将集中的数据划分为簇.DBSCAN是一种经典的基于密度的聚类算法,能发现任意数量和形状的簇,但需设置Eps和MinPts参数,且聚类效果对参数敏感.提出一种改进的DBSCAN算法,该算法采用自适应的Eps参数使得DBSCAN算法能对具有不同密度的簇的数据集进行聚类.仿真实验结果验证了所提算法的有效性.  相似文献   

8.
DBSCAN算法是经典的基于密度的聚类算法,能够在含有噪声的数据中发现任意形状的簇,但其效率较低.并查集常用于解决不相交集合的合并问题,将并查集的方法应用于DBSCAN算法的设计中,使得算法效率得到有效提高.  相似文献   

9.
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性.  相似文献   

10.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

11.
由于时间序列数据具有高维度、动态性等特点,这就导致传统的数据挖掘技术很难有效的对其进行处理,为此,提出了一种基于多维时间序列形态特征的相似性动态聚类算法(similarity dynamical clustering algorithm based on multidimensional shape features for time series,SDCTS).首先,提取多维时间序列的特征点以实现降维,然后,根据多维时间序列的斜率、长度和幅值变化的形态特征定义了一种新的时间序列相似性度量标准,进而提出无需人为给定聚类个数的多维时间序列动态聚类算法.实验结果表明,与其他算法相比,此算法对时间序列具有良好的聚类效果.  相似文献   

12.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

13.
聚类算法是数据挖掘领域中一个非常重要的研究方向.至今为止人们已经提出了许多适用于大规模的、高维的数据库的聚类算法.基于密度的聚类算法是其中一个比较典型的研究方向,文中以DBSCAN为基础,提出一种基于密度的网格动态聚类算法.新算法将网格的原理运用到基于密度的聚类算法中,并采用了动态的参数法,能自动根据数据的分布情况进行必要的参数更改,有效减少DBSCAN对初始参数的敏感度,从而提高了聚类的效率和效果,降低了算法I/O的开销.算法不仅能挖掘出各种形状的聚类,并能准确的挖掘出数据集中突出的聚类.  相似文献   

14.
为解决实时分析处理的海洋 Argo 浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题, 提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法 DBIRCH( Density-BasedBalanced Iterative Reducing and Clustering Using Hierarchies)。 该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制 CF(Clustering Feature)树生长的约束系数子空间阈值, 同时结合密度关联思想在不同邻域内多次建立 CF 树且合并, 最终以核心 CF 树子节点为聚类结果输出, 避免了 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖, 同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性, 提高了处理 Argo 剖面监测数据的时效性和算法的整体吞吐速度。 为测试算法的综合性能, 使用真实 Argo浮标剖面实时监测数据集, 并根据不同的参数对算法做出多组对比实验, 同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估, 从全局角度分析该算法在 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、 BIRCH 及 DBIRCH 3 种不同算法中综合聚类性能最优。 实验结果表明, 在3 种算法中,BIRCH 算法运算速度最快, 但准确率最低; DBSCAN 算法聚类性能高于 BIRCH 算法, 但运算速度最慢; 改进的DBIRCH 算法运算效率略低于 BIRCH 算法, 但聚类准确率最高。  相似文献   

15.
Clustering, in data mining, is a useful technique for discovering interesting data distributions and patterns in the underlying data, and has many application fields, such as statistical data analysis, pattern recognition, image processing, and etc. We combine sampling technique with DBSCAN algorithm to cluster large spatial databases, and two sampling-based DBSCAN (SDBSCAN) algorithms are developed. One algorithm introduces sampling technique inside DBSCAN, and the other uses sampling procedure outside DBSCAN. Experimental results demonstrate that our algorithms are effective and efficient in clustering largescale spatial databases.  相似文献   

16.
为了构建能反映高维数据本质结构的高质量图,提出了一种新颖的降维方法———基于自适应图的降维方法( DRAG: Dimensionality Reduction based on Adaptive Graphs) 。与其他传统的基于图的降维方法相比,提出的DRAG 避免了传统k 近邻或ε 球准则构图策略中的参数选择问题,考虑了数据的局部信息和噪声,能自适应地构建稀疏的最优图结构,并将其结合在经典的LPP( Locality Preserving Projection) 模型中,学习能有效刻画高维数据本征结构的投影矩阵,从而实现降维的目的。为了评估算法的有效性和可行性,在4 个标准的图像数据库( CMU PIE,Extended YaleB,ORL 和COIL 20) 分别进行了分类与聚类实验,实验结果表明,所提出的方法在分类识别率和聚类准确率上都优于其他对比方法。  相似文献   

17.
当数据的密度有变化时,密度聚类算法DBSCAN不能一次发现多种密度的簇结构,通常需要调整参数,而合适参数的确定比较困难.提出了一种两阶段的密度聚类算法以识别精子图像,算法采用相同的参数完成对不同密度簇的发现.首先对原始数据图像采用初步的预处理技术,调用DBSCAN算法得到精子头部簇,然后对其余图像部分进行增强,以精子头部为核心点集合,再次调用DBSCAN算法得出密度可达的簇,从而完成精子图像的识别.实验证明对精子图像识别的准确率、效率、效果均优于传统密度聚类方法,为医生诊断病情提供有效的数据支持.  相似文献   

18.
为了更好地在复杂多目标环境下进行汽车雷达数据的实时聚类,使用扩展卡尔曼滤波算法(EKF)对基于密度的聚类算法(DBSCAN)进行改进,并通过仿真和实测实验进行验证。结果表明:新算法在进行增量聚类时每次耗时可以保持在一个稳定且较低的水平;新聚类在不增加时间复杂度的情况下进行自适应聚类,可以解决汽车雷达数据密度不均匀的情况。可见新算法同时实现了增量和自适应DBSCAN聚类,同时保证聚类的效率和准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号