首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

2.
针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利用投票法以及三支决策规则对标签对齐后的聚类成员进行集成,得到最终的三支聚类结果.实验结果显示,本方法能够有效处理大规模不确定性数据,相比传统基于Spark的聚类算法效率更高.  相似文献   

3.
对象代理数据库是一种先进的具有复杂信息管理能力的数据库系统,随着数据量的剧增,实现其分布式存储变得十分重要.然而,对象代理数据库中的数据存在着很强的关联性,如果按照传统数据划分方式进行分布式存储,将导致查询效率低下.针对这一问题,本文提出了一种基于关联的高效数据划分方法:首先根据代理层次将关联对象聚集成对象簇,每个簇对应一个存储文件;然后提取对象簇的模式特征和语义特征,通过聚类算法将对象簇集划分为k个子集分配到各存储节点.将本文方法与随机分布式存储方法进行了比较实验,结果证明本文方法在查询效率方面具有明显优势.  相似文献   

4.
针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果.  相似文献   

5.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

6.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。  相似文献   

7.
设计和实现了一种改进的蚂蚁聚类算法.基于海上空袭目标攻击方向划分问题,分析了传统的聚类算法解决此类问题的不足,提出了一种动态调整的空袭方向划分混合蚂蚁聚类算法.该算法能充分利用空中目标信息动态调整参数,以获取合理聚类数和加速算法收敛,对孤立数据处理的鲁棒性较强.用人工数据集和真实数据集进行实验.结果表明,该算法是一种高效率的聚类算法,提高了空袭方向划分的准确性和科学性.  相似文献   

8.
一种动态调整的混合蚂蚁聚类算法   总被引:1,自引:0,他引:1  
设计和实现了一种改进的蚂蚁聚类算法.基于海上空袭目标攻击方向划分问题,分析了传统的聚类算法解决此类问题的不足,提出了一种动态调整的空袭方向划分混合蚂蚁聚类算法.该算法能充分利用空中目标信息动态调整参数,以获取合理聚类数和加速算法收敛,对孤立数据处理的鲁棒性较强.用人工数据集和真实数据集进行实验.结果表明,该算法是一种高效率的聚类算法,提高了空袭方向划分的准确性和科学性.  相似文献   

9.
全球定位技术与基于位置服务的发展促进了轨迹大数据的发展.轨迹聚类作为最重要的轨迹分析任务之一,得到了广泛的研究.目前,大多数聚类方法是在单处理机模式下运行,对于大规模的轨迹数据其处理时间较长,难以满足时效性强的轨迹分析任务,为此提出一种基于轨迹数据密度分区的分布式并行聚类方法.首先将整个轨迹数据集抽象在一个矩形区域内,通过该矩形最长维度的变换将数据合理地划分为若干任务量相当的分区,构建可供分布式并行聚类的局部数据集,然后各工作服务器对局部分区分别执行DBSCAN聚类算法,管理服务器对局部聚类结果进行合并与整合.实验结果验证了本方法的有效性,在一定程度上提高了聚类分析的运算效率.  相似文献   

10.
Web数据库查询结果的自动分类方法   总被引:2,自引:0,他引:2  
为解决Web数据库查询中出现的多查询结果问题,提出一种Web数据库查询结果自动分类方法.该方法在查询结果上动态生成一个带标签的、分层的分类树.分类树的构建通过两个处理阶段完成:首先在离线阶段分析系统中所有用户的查询历史并聚合语义上相似的查询,然后根据聚合的查询将原始数据划分成多个元组聚类,每个元组聚类对应一种类型的用户偏好;当用户查询到来时,在线查询处理阶段利用第一阶段生成的元组聚类,在查询结果集上为用户生成一个分类树,使得用户能够方便地选择和定位所需信息.实验和分析表明,提出的分类方法能够很好地满足用户个性化查询的需求.  相似文献   

11.
为了解决集中式聚类算法不能处理海量大数据的问题,提出基于Fisher判别确定置信半径的分布式聚类算法.应用网络上各个节点的计算、存储能力,以及网络的带宽,将聚类所需的时间复杂度和空间复杂度平摊到各个节点.通过应用Fisher线性判别找到节点在同一子类数据上的稠密和稀疏分布,从而快速确定聚类的置信半径并指导下一步的聚类过程,使得保持聚类精度的同时能提高分布式聚类的速度.对算法进行了数值模拟,并使用真实数据完成了试验.结果表明,所提出算法相比DFEKM聚类算法,能根据数据分布的不同在聚类结果和聚类速度上达到很好的平衡,这表明该算法具有更好的健壮性.  相似文献   

12.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

13.
一种简单有效的基于密度的聚类分析算法   总被引:1,自引:0,他引:1  
对数据挖掘中基于密度聚类的相关概念和算法进行了讨论,对OPTICS(O rdering Pointers to Iden-tify the C lustering Structure)算法聚类分析的正确性给以了证明。以DBSCAN,OPTICS为基础,提出了一种基于密度的简单有效的聚类算法。新算法主要在ε-邻域查询和种子队列的更新两个方面作了改进,给出了一种简单、效率较高的邻域查询方法-哈希表法,即对整个数据集合或部分数据作网格化处理。测试结果表明新算法能够有效地对大规模数据进行聚类,效率较高。  相似文献   

14.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

15.
为解决常用于就业数据信息分析的K-means算法中初始化聚类中心敏感和容易陷入局部最优值问题,提出了一种新的动态聚类算法.该算法首先利用最近邻聚类法获得初始聚类中心,然后利用小类对合并条件进行聚类合并,从而获得更优的聚类结果.以多个高职院校近几年的就业数据为样本信息,在数据预处理的基础上,运用提出的聚类方法进行了聚类实验分析,并挖掘出与就业质量相关的因素.最后的实验结果表明,文中提出的聚类方法聚类划分效果更优.  相似文献   

16.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

17.
针对QCR-树聚类个数需事先确定和处理高维空间数据时面临着"维数灾难"的问题,通过自动确定K-means算法的聚类个数和初始聚类中心,来提高聚类质量,并对原始高维空间数据进行近似压缩来减少磁盘读写代价,提高查询效率,提出一种QAAR-树空间索引结构,同时给出QAAR-树的插入、删除和查询算法。实验结果表明,QAAR-树的查询性能优于QCR-树,能够有效地处理海量高维空间数据。  相似文献   

18.
微动勘探法可探查铁路路基地下岩溶、裂隙通道等不良地质体的发育位置,针对反演成果中土、岩体分界面模糊不清,异常位置及边界不准确等问题,采用分布式模糊聚类算法分析反演数据。系统回顾了微动勘探法和分布式模糊聚类算法基本原理,以皖赣铁路宁国改线某区间既有铁路路基岩溶勘察为例,开展分布式模糊聚类微动勘探进行地层分层、溶洞自动划分。将分布式模糊聚类法分析前后的反演数据同时与钻探揭露结果对比发现,分布式模糊聚类算法可对分界面、异常区域进行自动有效划定,可更加准确地识别地质异常体。说明该方法可较大程度提高微动反演数据的准确率,为铁路路基工程的设计和施工提供参考。  相似文献   

19.
为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规模数据样本聚类的效率,得到聚类结果后,采用动态推荐算法实现人力资源实时推荐。结果表明,Spark平台相比于单机在聚类计算效率方面更有优势,且所提出的算法比单机的K均值聚类算法的聚类速度和准确率均更优,在动态推荐性能方面也优于常用推荐算法。  相似文献   

20.
K-means算法以硬聚类划分思想被广泛应用于入侵检测系统,这种严格的边界划分方法在对许多新衍生类入侵数据检测时,易出现检测率低、误检率高的情况。同时,当处理复杂网络访问数据时,采用固定的k值不够灵活,也影响检测的准确性。结合三支决策思想,对传统K-means算法进行了改进,提出了基于三支动态阈值K-means聚类的入侵检测算法。该算法通过动态阈值调整,可以优化聚类的数量,在一定程度上消除了固定k值对入侵检测效果的影响。将离群的不确定性网络数据进行分离和延迟判断,通过二次聚类重新划分后再做决策。在KDD Cup99数据集上实验结果表明,当攻击类型逐渐增多、攻击行为更加复杂时,改进后的K-means算法在检测率和误检率上显著优于传统K-means算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号