首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 87 毫秒
1.
增量聚类算法综述   总被引:2,自引:1,他引:1  
给出了增量聚类的概念,分析了增量聚类方法可以用于解决数据的变化和大量存储空间的需求问题。增量聚类算法选择恰当时,可以保证数据在变化时有效地提高聚类的精度和效率。从传统聚类、生物智能聚类和数据流聚类三个角度研究了增量聚类问题,分析了增量聚类问题的研究进展,包括发展的过程及特点,阐述了研究增量聚类问题的关键技术,最后给出了未来的发展趋势。  相似文献   

2.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。  相似文献   

3.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。  相似文献   

4.
在数据挖掘领域,聚类是对数据初始的处理。动态系统中,由于经常要增加一些新的数据,如果每次对新增的数据都重新聚类,这样就既浪费时间又浪费资源。首先介绍了聚类的基本概念和聚类的分类,在此基础上提出的一种基于特征向量的聚类算法,它只对新增的数据聚类,这样就会节省大量的资源和时间。通过实验,在动态系统中对新增的数据用该增量聚类算法和重新聚类的算法相比较,最后得出结论,该增量聚类算法是可行的。  相似文献   

5.
针对DBSCAN算法I/O开销和内存消耗大的缺点,提出了基于层次合并的密度算法.该算法减少了DBSCAN算法中需要查询的点的数量,从而克服了DBSCAN算法I/O开销和内存消耗大的缺点.算法分析表明该算法对DBSCAN的改进是有效的.  相似文献   

6.
传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术的研究重点之一就是如何从海量数据中高效率地获取知识。结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率。因此,提出一种聚类算法,主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合。  相似文献   

7.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

8.
随机种子最近邻居搜索聚类算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了随机种子最近邻居搜索(RS-NNS)聚类算法,该算法从随机确定的种子开始沿着它最近邻居的方向搜索具有最大相似特征的邻居对象,形成局部最大聚类集合,并在搜索过程中动态调整数据对象的归属,以实现局部的最优分配,直到所有的数据对象完成聚类标识。经过验证,该算法可以适应数据集合的密度、形状、噪音、聚类个数等问题,并且相对于同类算法可以实现较快地优化搜索。  相似文献   

9.
聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(ALCM),并且从理论上证明了该算法复杂度为关于数据集个数的线性时间复杂度.通过比较实验表明:1)随着数据个数的增大,PAM所花费的时间将激剧增大,而ALCM花费时间与数据集个数呈近似线性增长的关系,即ALCM是适应大数据集的.2)PAM算法和AL-CM算法随数据个数增大,二者的代价函数并无明显差异.  相似文献   

10.
数据挖掘技术中聚类算法的探索与研究   总被引:1,自引:0,他引:1  
申锐 《山西科技》2009,(2):90-91
文章在对各种聚类算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法深入研究的基础上,提出了一种改进基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此适合对大规模数据的挖掘。  相似文献   

11.
孙新  宋中山 《中国西部科技》2010,9(13):28-29,49
数据挖掘技术引起了数据库和人工智能等领域的专家和学者的广泛关注。关联规则的挖掘是数据挖掘研究的一个重要领域,本文分析了经典的增量更新算法FUP的不足,提出了一种改进的增量更新算法EFUP,详细论述算法思想,并与FUP算法比较分析,表明了该算法的优越性。  相似文献   

12.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想.针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(improved density peak clustering combining manifold distance and labe...  相似文献   

13.
一种聚类挖掘软件数据的方法   总被引:1,自引:2,他引:1  
提出了一种聚类挖掘软件数据的方法。首先将一组软件数据的最可能分类情况称为“中心知识”。将该组数据的所有可能分类结果称为“知识的浮动域”,最后将“中心知识”对应分类的可信程度称为“知识的正确度”。分类结果的评价标准主要考虑到:分类数目适中,每个类内半径尽可能小,类间距离尽可能大的分类结果具有较高的评价分数。进行的“软件数据挖掘实验”结果表明,这种方法更加准确、更加切合实际。从理论和实践上证明了软件数据挖掘具有广阔的发展前景。  相似文献   

14.
对于数据仓库的维护中涉及的表连接,提出一种新的增量JOIN算法。相对已有的增量JOIN算法,本算法的运算量大大减少,缩短了运算时间。  相似文献   

15.
罗静  刘宗歧 《科技信息》2011,(13):366-367
本文阐述了数据挖据的一些主要的方法和技术,详细介绍了基于网格的聚类技术,采用foodmart数据库作为算法输入的数据集,应用基于网格距离的聚类算法的实现对电力营销中客户的购买行为进行了聚类和预测,并验证了算法的正确性和有效性。  相似文献   

16.
采用一种改进后的决策树归纳聚类算法和交互式CLTree(Clustering based on decision Trees)剪枝,对商业数据的某些问题实现了聚类挖掘。对交易数据的实际酸类分新表明,该方法不仅可以处理数值型属性,还可以处理枚举型属性。实验结果表明,该方法在处理很合类型数据时具有良好的挖掘效果。对商业数据聚类分新,可以得到合理的市场分段,预测顾客的购买行为。  相似文献   

17.
数据挖掘中基于密度的聚类结构及算法设计   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘的主要技术之一。其中基于密度的聚类可以得到任意形状的聚类结果,从而可以观察到一个并发的、完整的聚类结构。对聚类、数据对象、簇的密度、基于密度的方法和OP TICS中的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于ζ的基于密度的簇、密度度量函数等概念,并设计了获得聚类结构的相应算法且对其进行了复杂性分析。  相似文献   

18.
为了在激烈的市场竞争中取胜,电信企业意识到必须将客户分类,针对不同的客户研究相应的营销策略,DBSCAN算法能够实现客户分类,但对初始参数E和MinPts的取值非常敏感,不同的取值将产生不同的聚类结果,通过对DBSCAN算法进行改进,实现了更加准确和全面的客户分类。  相似文献   

19.
介绍了科学管理流数据的流数据管理系统及根据BIRCH算法中聚类特征的概念,利用簇特征设计与实现了一种新的动态流数据聚类算法。这种新算法改善了基于滑动窗口流数据聚类的有效性以及空间和时间复杂度问题。理论分析和实验结果证明该算法能够有效地处理滑动窗口流数据集,使聚类算法具有良好的可扩展性。  相似文献   

20.
To alleviate the scalability problem caused by the increasing Web using and changing users' interests, this paper presents a novel Web Usage Mining algorithm-Incremental Web Usage Mining algorithm based on Active Ant Colony Clustering. Firstly, an active movement strategy about direction selection and speed, different with the positive strategy employed by other Ant Colony Clustering algorithms, is proposed to construct an Active Ant Colony Clustering algorithm, which avoid the idle and "flying over the plane" moving phenomenon, effectively improve the quality and speed of clustering on large dataset. Then a mechanism of decomposing clusters based on above methods is introduced to form new clusters when users' interests change. Empirical studies on a real Web dataset show the active ant colony clustering algorithm has better performance than the previous algorithms, and the incremental approach based on the proposed mechanism can efficiently implement incremental Web usage mining.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号