首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

2.
提出一种基于MapReduce的从出租车轨迹中提取交通热点区域的分布式并行算法,首先对原始轨迹数据进行停靠点的提取来消除噪声并剔除行驶中间点,然后通过对按时间段分块的停靠点并行运行基于密度的带有噪声的空间聚类(DBSCAN),实现对分块的数据聚类来发现不同时间段的热点区域.经过在实际数据集上的试验表明:与传统方法相比,该方法在准确性和大数据量下的整体效率具有优势.  相似文献   

3.
为解决广域网分布式环境下异构车辆轨迹大数据的语义融合问题,基于MapReduce和ACO算法提出可在广域网环境分布式并行执行的异构大数据语义聚类融合DPACO方法.该方法在数据源端节点并行完成聚类运算中复杂度最高的部分,将所得结果合并为数据量较小的中间结果,然后将中间结果传送到中心节点并自适应地生成聚类中心.此外,该方法无需预设公共语义模型,通过移动计算避免移动大数据,大大提高了运算效率.实验比较了DPACO方法和已有基于MapReduce的并行化ACO方法,结果表明DPACO方法在广域网环境异构大数据语义融合中具有更好的可用性.  相似文献   

4.
模糊c-均值聚类(FCM)的算法是在硬c-均值算法(HCM)发展而来的,虽然改进了硬c-均值算法的聚类效果,但带来了时间复杂度的增加.提出了一种基于协议分析分类的并行入侵检测模型,根据协议分析将大的数据集进行分类,构成不同的数据集,先对各个数据集进行FCM聚类,然后对每个FCM聚类的结果再次进行FCM聚类,构成并行处理系统.采用协议分析技术结合高速数据包捕捉、协议解析等技术来进行分布式入侵检测,可以提高入侵检测的速度.  相似文献   

5.
海量和高维大数据集的聚类对计算机性能提出了很高的要求.基于具有层次聚类特性的RSOM树方法提供了一种有效的手段以实现对高维大数据集的聚类索引,这种RSOM树可支持最近邻搜索且不需要对数据进行线性搜索.注意到RSOM模型具有内在的层次化、分布式结构特点,并可进行增量的训练,研究了基于高效并行集群的增量、分布式RSOM并行算法,并通过视频图像特征集实例证实了算法的可行性.  相似文献   

6.
基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.  相似文献   

7.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

8.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

9.
水文分区有各种方法,文章提出了集模糊聚类与主成分分析方法的各优点组合的水文分区方法,首先采用主成分分析法获得水文特性主成分属性,然后运用模糊聚类算法NFC(Net Fuzzy Cluster)进行模糊聚类.利用主成分分析法对分区指标进行降维处理,简化了计算.应用NFC模糊聚类,在一定程度上解决了FCM算法局部极值问题且具有良好的聚类性能,实现了聚类的科学化与自动化.对安徽省淮河流域的124 716个原始水文数据进行实验,结果表明,与传统分区方法相比,所提出的方法有效地改善了时间性能,提高了求解精度,所得结果为水文站网规划提供了理论依据.  相似文献   

10.
针对再入滑翔类飞行器滑翔过程各种复杂条件不确定以及任务不确定问题,将轨迹离线优化与在线调整相结合,提出了一种基于局部模型的轨迹在线调整算法。该算法利用离线Radau伪谱函数表征飞行轨迹,构建轨迹局部模型,并通过轨迹约束空间离散化形成局部模型集;在线运行过程中,引入模糊聚类思想,设计了一种基于模糊隶属度的局部模型子集构建与更新方法,根据实时飞行状态以及任务约束构建与更新局部模型子集,并采用加权融合方法实现轨迹在线生成。最后,通过仿真分析验证了算法的轨迹生成与在线调整性能。  相似文献   

11.
提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.  相似文献   

12.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

13.
梁卓灵  元昌安  覃晓 《广西科学》2020,27(6):616-621
为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss (NJW)谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法(Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC),然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。  相似文献   

14.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

15.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

16.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感.  相似文献   

17.
在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。  相似文献   

18.
为了有效解决云计算环境下海量数据的并行聚类问题,以典型的基于距离的Kmeans聚类算法为例,提出了一种MapReduce并行聚类优化算法.首先将差分进化算法与K-means算法相结合,从而利用差分进化算法的强大全局搜索能力克服典型K-means算法对初始中心较为敏感的缺点,利于增强全局最优解的稳定性.然后把优化后的算法在Hadoop的Map Reduce框架下做了并行化的设计.实验结果表明,与其他多种分布式设计相比,提出的并行聚类优化算法能够在保证聚类效果的前提下,大大减少了运算的时间,提高了大规模数据的聚类效率.  相似文献   

19.
随着车联网技术的不断发展,产生了海量车辆轨迹数据。这些车辆轨迹数据可以通过聚类分析方法挖掘出车辆行驶的潜在规律,从而实现指导车辆出行的目的。提出一种基于密度的车辆轨迹聚类方法,对基于道路形状关键点位置选取的车辆轨迹信息进行重构,并考虑车辆在路网中移动的空间约束,分析聚类结果得到城市道路的交通状况,以此指导车辆出行以避免或减轻车辆拥堵。基于福州市真实的车辆数据对提出的车辆轨迹聚类算法进行验证,并对最后的聚类结果进行了详细的分析。实验结果表明,针对车辆轨迹聚类并结合道路网络的方法能够更加真实反映车辆的行为特征。  相似文献   

20.
为数据集选择合适的聚类算法是获得高质量聚类结果的前提和保障.提出了基于有效性指标的聚类算法选择方法,通过对不同聚类算法的聚类结果的质量评价为数据集选择最适合的聚类算法.该方法的优点是在对数据集的情况了解甚少的情况下,也能有效地保障聚类质量.实验结果表明本文方法十分有效,为实验数据集正确选择出最适合的聚类算法,并获得了高质量的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号