首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

2.
提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.  相似文献   

3.
提出了基于分布式聚类的异常入侵检测方法ID—DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double—Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD—CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.  相似文献   

4.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

5.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

6.
Gustafson-Kessel(GK)聚类算法可以有效地搜索超椭球、平面和线型的数据类,但仍然存在对初始聚类中心较敏感、易于陷入局部最优的缺陷.为此,文中根据鱼群觅食与聚类的相似性,利用人工鱼群(AFS)算法对聚类中心进行初始化,提出了改进的G-K聚类算法,并利用人工数据集和IRIS数据集进行仿真研究.结果表明,文中算法能有效地发现数据集中的聚类结构,聚类效果优于GK聚类算法.  相似文献   

7.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

8.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

9.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

10.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

11.
在确定查询阈值上限时,当前数据库查询方法只能使用查询树的一条路径,并行性能较差;在对超大规模数据进行查询时,具有查询时间长、响应不及时的弊端。为此,提出一种新的阈值上限一定时超大规模数据库的查询方法,通过RSA算法对超大规模数据库进行加密和解密处理,依据多叉树的定义构造多叉索引树,在此基础上计算各代表数据点与查询点之间的距离;在阈值上限一定时,利用多个从节点机并行处理后,使用主节点机汇集结果,运用后续子树递归处理,直至获取查询结果。实验结果表明,所提方法不仅具有很高的查询效率,而且CPU使用率很高。  相似文献   

12.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感.  相似文献   

13.
针对在关联规则的实际挖掘中,由数据快速增加所造成的大数据问题和增量更新问题?在快速更新频繁模式树算法(fast updated frequent pattern tree,FUFP - tree)的基础上,引入MapReduce 编程模型,提出了一个面向大数据的并行的关联规则增量更新算法(parallel fast updated frequent pattern tree,PFUFP - tree)?该算法通过构建原始事务数据的分块索引,从而使得在每次增量更新时,能够最小化地扫描原始事务数据库,提高了挖掘效率;同时采用动态负载均衡的项目分组策略来优化并行计算过程中的项集分组问题,从而保证分布式集群中节点之间的负载均衡;实验结果证明,提出 的算法是有效的和高效的,适用于动态增长的大数据环境?  相似文献   

14.
关联规则挖掘是数据挖掘技术的一种简单又很实用的方法,有着广泛的应用。该文利用部分支持度树的结构提出了对关联规则的增量式更新算法,用于解决向数据库中添加新的数据而最小支持度不发生变化时的关联规则更新问题。该算法有效地利用已挖掘的关联规则和保留的部分支持度树来改善性能,并且只需对新增数据库部分进行一遍扫描,从而进一步提高算法的效率。实验结果表明,该算法能有效地解决关联规则的更新问题,提升挖掘效率。  相似文献   

15.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题.  相似文献   

16.
Considering the constantly increasing of data in large databases such as wire transfer database, incremental clustering algorithms play a more and more important role in Data Mining (DM). However, Few of the traditional clustering algorithms can not only handle the categorical data, but also explain its output clearly. Based on the idea of dynamic clustering, an incremental conceptive clustering algorithm is proposed in this paper. Which introduces the Semantic Core Tree (SCT) to deal with large volume of categorical wire transfer data for the detecting money laundering. In addition, the rule generation algorithm is presented here to express the clustering result by the format of knowledge. When we apply this idea in financial data mining, the efficiency of searching the characters of money laundering data will be improved.  相似文献   

17.
遥感影像具有数据量大、数据结构复杂、连续、存在缺损与误差等特点,根据遥感影像的特点,提出一种基于多代表特征树的CAMFT算法。该算法通过多代表点特征树把海量空间数据进行压缩来提高效率,并且可以捕捉复杂形状聚类;算法CAMFT融入了采样思想,进一步增强了处理大型数据的能力。实验结果表明,该方法聚类精度优于K-Mean算法。  相似文献   

18.
 空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。  相似文献   

19.
基于遗传算法和粗糙集理论的增量式规则获取方法   总被引:1,自引:0,他引:1  
规则获取的增量式算法是数据挖掘领域的一个热点问题.基于粗糙集理论,从规则获取和优化两方面研究了基于遗传算法的增量式规则挖掘方法,它具有结构简单、搜索效率高、求解速度快等优点.通过研究决策表和决策规则系数,建立基于粗糙集表示和度量的知识,并且将遗传算法和规则挖掘算法相结合,建立了新的优化方法,提出了一种基于遗传算法的增量式规则挖掘的方法.在原有规则集的基础上进行规则和规则参数的增量式更新,避免了为更新规则而重新运行规则获取算法.试验结果表明,执行增量式GA的能够有效地获取最优规则.  相似文献   

20.
基于随机抽样和聚类特征的聚类算法   总被引:5,自引:0,他引:5  
在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP),该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间,CLAP通过设立索引树的叶节点的直径和聚类直径,提高了聚类的精度,并采用全局搜索和局部搜索相结合的方式,消除了输入顺序对聚类质量的影响.测试结果表明,CLAP算法不仅提高了聚类速度,而且改善了聚类质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号