首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于经典流聚类框架CluStream和密度聚类算法DBSCAN,提出了一种分布式实时数据流密度聚类算法DBS-Stream,并在Storm流式处理平台上设计了算法实现方案.该算法局部节点使用CluStream的两段式经典框架,在线微聚类中利用DBSCAN代替K-means初始化数据,在中心节点再使用DBSCAN算法进行全局聚类.该算法可解决任意型聚类问题,并可使局部节点快速更新数据.将DBS-Stream算法与CluStream算法进行比较,实验结果表明,本研究算法在聚类质量和通信代价方面均优于CluStream.  相似文献   

2.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

3.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

4.
DBSCAN算法是一种基于密度的空间数据聚类方法, 聚类速度快, 且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗, 当空间聚类的密度不均匀,聚类间距离相差很大时, 聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

5.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

6.
事务型数据的CLOPE聚类算法在运行速度、内存开销和聚类效果方面表现优异,但随着数据量飞速增长,其运行时间也随之急剧变长甚至无法使用。为此,利用Hadoop框架下的YARN资源管理系统,对CLOPE算法进行改进,提出基于MapReduce架构的CLOPE并行聚类算法。该算法由两个阶段组成,第一阶段执行Map操作,Hadoop架构对数据集分片并行并运行CLOPE算法聚类成小聚簇;第二阶段执行Reduce操作,通过多次迭代把各个小聚簇聚合成大聚簇。实验结果证明:分析1 000条20 000个属性的亚马逊数据记录,MapReduce-CLOPE算法耗时稳定在22 s,而CLOPE算法耗时在50~60 s。随着数据量的增大,CLOPE算法无法计算而MapReduce-CLOPE算法耗时基本稳定。因此,MapReduce-CLOPE算法在计算时间方面要显著地优于CLOPE算法,且计算时间受数据量大小的影响较小,而在聚类质量方面与CLOPE算法相近。  相似文献   

7.
全球定位技术与基于位置服务的发展促进了轨迹大数据的发展.轨迹聚类作为最重要的轨迹分析任务之一,得到了广泛的研究.目前,大多数聚类方法是在单处理机模式下运行,对于大规模的轨迹数据其处理时间较长,难以满足时效性强的轨迹分析任务,为此提出一种基于轨迹数据密度分区的分布式并行聚类方法.首先将整个轨迹数据集抽象在一个矩形区域内,通过该矩形最长维度的变换将数据合理地划分为若干任务量相当的分区,构建可供分布式并行聚类的局部数据集,然后各工作服务器对局部分区分别执行DBSCAN聚类算法,管理服务器对局部聚类结果进行合并与整合.实验结果验证了本方法的有效性,在一定程度上提高了聚类分析的运算效率.  相似文献   

8.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

9.
聚类技术是数据挖掘中的一项重要技术,它能够根据数据自身的特点将集中的数据划分为簇.DBSCAN是一种经典的基于密度的聚类算法,能发现任意数量和形状的簇,但需设置Eps和MinPts参数,且聚类效果对参数敏感.提出一种改进的DBSCAN算法,该算法采用自适应的Eps参数使得DBSCAN算法能对具有不同密度的簇的数据集进行聚类.仿真实验结果验证了所提算法的有效性.  相似文献   

10.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

11.
采用一种改进密度空间聚类算法进行巡检图像分割,算法采用简单线性迭代聚类(SLIC)进行预处理,有效降低了内存消耗并提高了运行效率,同时有效改善了图像中目标边界作为背景来处理的问题;算法采用斜交空间距离作为距离度量,充分考虑变量间的相关性,改善了高维聚类不准确的问题.改进算法与DBSCAN对比实验表明:改进算法的聚类结果能有效分离目标和背景,保持边缘完整和连续,运行效率与聚类准确性有很大的改善,可以对巡检图像进行更有效的分割.  相似文献   

12.
针对传统DBSCAN算法参数设置依靠人工经验的不可靠性,并且对非均匀数据聚类效果差的问题,基于云模型(Cloud Model)提出了一种CMDBSCAN算法,算法首先结合距离曲线倾角突变的特点自适应获得邻域半径,并根据雷达信号分布密度设置聚类密度点数阈值,可实现DBSCAN算法自适应运行;同时结合多维云模型理论,对DBSCAN算法分选结果进行有效性评估,利用判定结果进一步优化参数设置.根据仿真模拟的复杂对抗过程中帧收的雷达信号进行实验,证明该算法可实现非均匀雷达信号的自适应分选,同时可有效避免在多功能雷达信号分选中的"增批"问题.  相似文献   

13.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

14.
针对毫米波雷达数据均匀性差,数据量小,噪点多等问题,提出一种基于DBSCAN (density-based spatial clustering of applications with noise)的雷达自适应聚类算法.改进算法能够根据K近邻距离和目标反射截面自适应调整聚类半径.首先给出一种聚类半径根据K近邻距离动态调整的机制:目标第K个近邻的距离与阈值相比较,以确定阈值半径取值.再提取雷达提供的目标反射截面,基于该值计算目标假象半径作为聚类半径的补充量.实现根据目标反射截面与数据稀疏程度自适应聚类的效果.将改进算法与不同参数的DBSCAN聚类算法在真实雷达点云数据进行实验对比.相较于选取合适参数的DBSCAN算法,改进算法能够更好适应毫米波雷达点云特征,对行人目标识别准确率提高4.18%,对车辆目标识别准确率提高5.63%.  相似文献   

15.
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.  相似文献   

16.
基于改进DBSCAN算法的激光雷达车辆探测方法   总被引:1,自引:1,他引:0  
结合车辆行驶的实际环境,提出了一种基于改进DBSCAN快速聚类算法的激光雷达车辆探测方法.建立激光雷达与摄像机传感器坐标与车辆坐标之间的转换模型,进行数据融合,通过改进DBSCAN算法对雷达数据进行去噪声和聚类处理,根据车辆在激光雷达探测中的形状特征模型进行形状匹配,实时完成车辆探测,并将探测结果投影至图像上.实车实验结果证明,改进的DBSCAN算法在车辆探测应用中具有良好的准确性和实时性.  相似文献   

17.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

18.
为了有效解决云计算环境下海量数据的并行聚类问题,以典型的基于距离的Kmeans聚类算法为例,提出了一种MapReduce并行聚类优化算法.首先将差分进化算法与K-means算法相结合,从而利用差分进化算法的强大全局搜索能力克服典型K-means算法对初始中心较为敏感的缺点,利于增强全局最优解的稳定性.然后把优化后的算法在Hadoop的Map Reduce框架下做了并行化的设计.实验结果表明,与其他多种分布式设计相比,提出的并行聚类优化算法能够在保证聚类效果的前提下,大大减少了运算的时间,提高了大规模数据的聚类效率.  相似文献   

19.
校园无线网络产生大量用户位置数据,它使掌握用户行为轨迹、预测用户位置成为可能.协同过滤广泛用于预测和推荐系统中,但现有研究存在数据稀疏性和不适用于处理时空数据的缺点.本文提出基于聚类和时间权重的协同过滤位置预测算法.首先利用DBSCAN聚类算法对用户进行聚类,缓解数据稀疏性.然后在簇内计算用户-位置评分矩阵时引入时间权重,使用户近期的位置签到对预测有更大贡献.与传统协同过滤方法相比,该方法准确率提高9.1%,召回率提高5.2%,F1-SCORE提高7%.  相似文献   

20.
提出一种基于MapReduce的从出租车轨迹中提取交通热点区域的分布式并行算法,首先对原始轨迹数据进行停靠点的提取来消除噪声并剔除行驶中间点,然后通过对按时间段分块的停靠点并行运行基于密度的带有噪声的空间聚类(DBSCAN),实现对分块的数据聚类来发现不同时间段的热点区域.经过在实际数据集上的试验表明:与传统方法相比,该方法在准确性和大数据量下的整体效率具有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号