首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对谱聚类性能优异但因计算复杂度太高而无法应用于大数据的问题,提出一种将谱聚类应用于大数据的新算法.首先,基于数据相似性与随机抽样选取核心点集,并利用核心集对大数据分组;然后在核心集上应用谱聚类;最后综合核心集的聚类结果和数据的分组信息完成大数据聚类.该算法既将谱聚类推广到大数据,又通过核心点选取降低了噪声及异常数据的影响.实验充分验证了推广后的谱聚类应用于大数据的高效性.  相似文献   

2.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

3.
当数据的密度有变化时,密度聚类算法DBSCAN不能一次发现多种密度的簇结构,通常需要调整参数,而合适参数的确定比较困难.提出了一种两阶段的密度聚类算法以识别精子图像,算法采用相同的参数完成对不同密度簇的发现.首先对原始数据图像采用初步的预处理技术,调用DBSCAN算法得到精子头部簇,然后对其余图像部分进行增强,以精子头部为核心点集合,再次调用DBSCAN算法得出密度可达的簇,从而完成精子图像的识别.实验证明对精子图像识别的准确率、效率、效果均优于传统密度聚类方法,为医生诊断病情提供有效的数据支持.  相似文献   

4.
加权质心定位算法是无线传感器网络中最常用的定位算法,为了进一步提高其定位精度,本文将聚类算法引入到无线传感器网络定位中,提出了一种具有噪声的基于密度的聚类算法(DBSCAN)聚类点密度的加权质心定位算法。该算法根据共线度理论选择参数,构建定位三角形的集合。选择集合中定位效果较好的一部分三角形对未知节点进行定位,并对所得的初始定位结果进行DBSCAN聚类。在排除误差较大的定位坐标后,将聚类后每个簇的核心点个数视为权值,采用加权质心定位算法得到未知节点的最终定位位置。仿真结果表明:该算法与传统加权质心定位算法相比,平均定位误差减小80%以上,有效提高了无线传感器网络定位精度。  相似文献   

5.
通过挖掘北京市出租车历史轨迹数据,分析出租车载客热点区域,从而为空载行驶的出租车司机提供寻客方向.基于大数据平台的历史轨迹数据预处理,按照数据生成时间对出租车历史数据进行排序,提取历史数据中的所有乘客上车地点;使用聚类算法对提取出的上车地点进行聚类分析,提取乘客频繁出现的区域.以出租车寻找乘客为背景,分别采用基于密度的DBSCAN算法和基于距离的K-means算法对载客点进行聚类.采用聚类算法性能评估中的DB内聚指数对两种算法的聚类效果进行评估,结果显示工作日和非工作日DBSCAN算法聚类结果的内聚效果均优于Kmeans算法.  相似文献   

6.
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.  相似文献   

7.
DBSCAN算法是一种基于密度的空间数据聚类方法, 聚类速度快, 且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗, 当空间聚类的密度不均匀,聚类间距离相差很大时, 聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

8.
FDBSCAN算法是对典型密度聚类算法DBSCAN的一个改进算法,在一定程度上加快了聚类速度,但其在聚类过程中容易丢失一部分对象,成为噪声,影响了聚类结果.文章针对FDBSCAN算法存在的问题进行了深入的研究,提出从核心领域中的核心点中选择代表对象的方法,在一定程度上解决了丢失点的问题.  相似文献   

9.
聚类技术是数据挖掘中的一项重要技术,它能够根据数据自身的特点将集中的数据划分为簇.DBSCAN是一种经典的基于密度的聚类算法,能发现任意数量和形状的簇,但需设置Eps和MinPts参数,且聚类效果对参数敏感.提出一种改进的DBSCAN算法,该算法采用自适应的Eps参数使得DBSCAN算法能对具有不同密度的簇的数据集进行聚类.仿真实验结果验证了所提算法的有效性.  相似文献   

10.
聚类算法是数据挖掘领域中一个非常重要的研究方向.至今为止人们已经提出了许多适用于大规模的、高维的数据库的聚类算法.基于密度的聚类算法是其中一个比较典型的研究方向,文中以DBSCAN为基础,提出一种基于密度的网格动态聚类算法.新算法将网格的原理运用到基于密度的聚类算法中,并采用了动态的参数法,能自动根据数据的分布情况进行必要的参数更改,有效减少DBSCAN对初始参数的敏感度,从而提高了聚类的效率和效果,降低了算法I/O的开销.算法不仅能挖掘出各种形状的聚类,并能准确的挖掘出数据集中突出的聚类.  相似文献   

11.
基于经典流聚类框架CluStream和密度聚类算法DBSCAN,提出了一种分布式实时数据流密度聚类算法DBS-Stream,并在Storm流式处理平台上设计了算法实现方案.该算法局部节点使用CluStream的两段式经典框架,在线微聚类中利用DBSCAN代替K-means初始化数据,在中心节点再使用DBSCAN算法进行全局聚类.该算法可解决任意型聚类问题,并可使局部节点快速更新数据.将DBS-Stream算法与CluStream算法进行比较,实验结果表明,本研究算法在聚类质量和通信代价方面均优于CluStream.  相似文献   

12.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

13.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

14.
为了更好地在复杂多目标环境下进行汽车雷达数据的实时聚类,使用扩展卡尔曼滤波算法(EKF)对基于密度的聚类算法(DBSCAN)进行改进,并通过仿真和实测实验进行验证。结果表明:新算法在进行增量聚类时每次耗时可以保持在一个稳定且较低的水平;新聚类在不增加时间复杂度的情况下进行自适应聚类,可以解决汽车雷达数据密度不均匀的情况。可见新算法同时实现了增量和自适应DBSCAN聚类,同时保证聚类的效率和准确度。  相似文献   

15.
聚类算法通常用于数据的聚类,但只要对算法结果从另一角度进行分析,则可发现它还可以用于异常数据的检测. 首先介绍了数据挖掘中的聚类算法,进而结合具体实例给出应用基于密度的聚类算法DBSCAN进行异常检测的过程,最后指出最终异常数据集的确定还应结合领域专家意见.  相似文献   

16.
基于改进DBSCAN算法的激光雷达车辆探测方法   总被引:1,自引:1,他引:0  
结合车辆行驶的实际环境,提出了一种基于改进DBSCAN快速聚类算法的激光雷达车辆探测方法.建立激光雷达与摄像机传感器坐标与车辆坐标之间的转换模型,进行数据融合,通过改进DBSCAN算法对雷达数据进行去噪声和聚类处理,根据车辆在激光雷达探测中的形状特征模型进行形状匹配,实时完成车辆探测,并将探测结果投影至图像上.实车实验结果证明,改进的DBSCAN算法在车辆探测应用中具有良好的准确性和实时性.  相似文献   

17.
针对基于密度的带有噪声空间聚类分析(DBSCAN)的不足,融合了领域知识和划分思想,提出了属性维划分的概念,并论证了基于局部簇合并与核心点计算的剪枝原理,最后结合云计算编程模式MapReduce的特点,给出了DBSCAN的优化方法,并在实际道路运输信息系统数据的聚类分析中得到应用验证.实践证明划分后的数据集易于实现并行聚类数据挖掘,文中优化方法优于一般的统计分析方法.  相似文献   

18.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

19.
DBSCAN算法是经典的基于密度的聚类算法,能够在含有噪声的数据中发现任意形状的簇,但其效率较低.并查集常用于解决不相交集合的合并问题,将并查集的方法应用于DBSCAN算法的设计中,使得算法效率得到有效提高.  相似文献   

20.
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号