首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
数据挖掘技术中聚类算法的探索与研究   总被引:1,自引:0,他引:1  
申锐 《山西科技》2009,(2):90-91
文章在对各种聚类算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法深入研究的基础上,提出了一种改进基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此适合对大规模数据的挖掘。  相似文献   

2.
针对DBSCAN算法I/O开销和内存消耗大的缺点,提出了基于层次合并的密度算法.该算法减少了DBSCAN算法中需要查询的点的数量,从而克服了DBSCAN算法I/O开销和内存消耗大的缺点.算法分析表明该算法对DBSCAN的改进是有效的.  相似文献   

3.
研究了联机数据挖掘系统中的并行和增量聚类算法,并给出了算法伪码。实验表明,联机增量聚类算法相对于传统的Apriori算法具有较大优势,同时证明了增量聚类算法及其联机数据挖掘系统的实用性。  相似文献   

4.
密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。  相似文献   

5.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

6.
聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(ALCM),并且从理论上证明了该算法复杂度为关于数据集个数的线性时间复杂度.通过比较实验表明:1)随着数据个数的增大,PAM所花费的时间将激剧增大,而ALCM花费时间与数据集个数呈近似线性增长的关系,即ALCM是适应大数据集的.2)PAM算法和AL-CM算法随数据个数增大,二者的代价函数并无明显差异.  相似文献   

7.
针对现有蚁群聚类中将带聚类样本放于网格进行聚类的算法存在随机移动而延长聚类时间,及大数据集进行蚁群聚类时收敛速度慢的缺点,在蚁群进行聚类前增加数据预处理.利用两元素越相似属于同一类簇的可能性越大的思想,将样本集中的样本量缩小.研究了通过信息素进行聚类的蚁群聚类算法,使算法中的"蚂蚁"在一定指导下进行聚类,达到缩短时间的目的.最后通过实验验证了所提出算法的有效性和优越性.  相似文献   

8.
随机种子最近邻居搜索聚类算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了随机种子最近邻居搜索(RS-NNS)聚类算法,该算法从随机确定的种子开始沿着它最近邻居的方向搜索具有最大相似特征的邻居对象,形成局部最大聚类集合,并在搜索过程中动态调整数据对象的归属,以实现局部的最优分配,直到所有的数据对象完成聚类标识。经过验证,该算法可以适应数据集合的密度、形状、噪音、聚类个数等问题,并且相对于同类算法可以实现较快地优化搜索。  相似文献   

9.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

10.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

11.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度.  相似文献   

12.
给出一种将网格技术、密度技术与分形理论的自相似性结合起来的一种有效聚类算法,利用分形维度变化最小同时是相似程度最大的特点来划分数据集从而得出聚类结果.实验表明该算法可以快速有效的处理多维大型数据集,识别出任意形状簇的个数,而且可以从数据集中挖掘出一些有用的分布信息.  相似文献   

13.
本文提出了一种基于遗传算法,结合网站的拓扑结构,对网站用户进行聚类分析的模型,阐述了遗传算法在优化过程中染色体编码、遗传算子的设计等问题.实验证明能解决常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题,是一种有实用价值的方法.  相似文献   

14.
一种基于局部信息的聚类密度度量   总被引:1,自引:0,他引:1  
为有效处理密度不均匀聚类问题,以数据集蕴涵的局部信息为出发点,提出一种数据点密度度量———松散度,用以揭示数据点与其相邻数据点的相对紧密程度及类属关系,从而解决密度不均匀聚类问题.依据松散度的性质实现了一种基于松散度的聚类方法,以验证松散度度量的有效性.实验结果表明,使用松散度来度量数据点的聚类密度信息可以有效处理密度不均匀聚类问题.  相似文献   

15.
针对当前数据挖掘中对数值型数据聚类方法的不足,提出了基于特征点选择的聚类算法(clustering algorithm based on Feature Point Selection,CFPS)。CFPS算法可以克服需要输入聚类数量的缺陷, 算法本身可以找到簇的最佳数量,使聚类的精度和效率得到大大提高。实验结果表明该方法对数值型数据聚类方法具有借鉴意义和深入研究的价值。  相似文献   

16.
考虑对象方向关系的密度聚类算法   总被引:2,自引:0,他引:2  
 聚类分析是数据挖掘的一个重要研究方向.为了在大规模空间数据库中发现任意形状的聚类,Martin Ester等提出基于密度的聚类算法DBSCAN.针对DBSCAN处理聚类边界对象的不足,提出了聚类时考虑对象方向关系的改进算法,实验表明,改进算法在不改变时间、空间复杂度的情况下能得到更好的聚类结果.  相似文献   

17.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

18.
应用映射簇的概念来明确多维数据中簇与维度的关系,将聚类问题转化为映射簇问题;将采样技术与PAM相结合,根据曼哈坦距离计算数据对象之间和簇之间的距离实现聚类分析.此外,给出了相应的具体算法,并将该算法与k-中心点算法进行了试验比较.试验结果证明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号