共查询到19条相似文献,搜索用时 62 毫秒
1.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。 相似文献
2.
区间数据的并行模糊聚类算法 总被引:7,自引:0,他引:7
研究了对区间数据进行聚类的模糊聚类算法;介绍和分析了模糊c-均值算法的基本思想及实现步骤;定义了区间数据的距离和四则运算,并推广模糊c-均值算法对区间数据进行聚类.在此基础上,讨论了对区间数据进行聚类的并行模糊c-均值算法.在分布式互连的PC/工作站环境下进行性能分析,结果表明并行的模糊c-均值算法具有好的可扩展性、规模增长性和加速比性能. 相似文献
3.
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率. 相似文献
4.
提出了一种基于效用函数划分系统的聚类算法,本算法中给出的效用函数能同时兼顾系统划分的相关性、可理解性、整体性、可分离性等原则。 相似文献
5.
《信阳师范学院学报(自然科学版)》2017,(3):454-459
针对海量数据的关联规则挖掘问题,提出了一种有效的基于等价类划分的并行频繁闭项集挖掘算法.该算法在MapReduce框架下,通过等价类的产生与划分、数据集的分配、异步频繁闭项集挖掘和汇总等步骤,不但较好地解决了多节点间的负载均衡问题,而且易于获得可靠的频繁闭项集.实验表明,该算法能有效克服传统算法挖掘效率低、冗余规则较多的缺点,整体上具有较高的性能. 相似文献
6.
《陕西理工学院学报(自然科学版)》2019,(4)
为提高传统协同过滤算法在个性化推荐系统中的大数据处理能力,研究了一种基于模糊聚类的并行推荐算法。在Hadoop平台下首先通过PCA降维和FCM聚类对用户物品评分矩阵进行预处理,采用皮尔逊相关系数计算用户间的相似度,通过得到的聚类簇集合构建最近邻集合,生成基本预测评分。最后实现算法的并行化处理并得到推荐结果。实验结果表明,与基于PCA降维的协同过滤和单机式传统协同过滤算法相比,该算法提高了推荐的准确性和实时性。 相似文献
7.
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性. 相似文献
8.
基于工作站机群系统研究了H.264视频编码的并行实现方法以增强视频编码实时处理性能,对实现过程中的并行处理策略和数据划分方法进行了深入分析,在多种层次上剖析了各种方法的优势与不足,指出采用联合调度策略的并行编码系统能够在实时高效编码的同时获得可扩展性和低时延.对采用联合调度策略的并行编码系统进行了系统的性能分析,并且导出了该类并行视频编码系统"加速比"的计算关系式,表明增加并行处理节点数和减小"同步等待时间"与"基本数据单元处理时间"的比值可以提高该类并行计算系统的加速比. 相似文献
9.
针对Hadoop存在的不足,提出了利用分布式数据库来模拟共享存储空间的解决方案。并对DBIK-means聚类算法做了并行化设计和实验分析,验证了DBIK-means聚类算法在处理大数据时,能够获得较好的加速比。 相似文献
10.
利用确定性退火技术的并行聚类算法 总被引:3,自引:0,他引:3
划分聚类和分级聚类是两种基本的聚类手段。划分聚类常常可以转换为一个全局最优化问题 ,传统的划分聚类方法很难得到全局最优解。基于确定性退火技术 ,给出了解决划分聚类问题的一种算法 ,并给出了在集群系统上的并行化方案 ,推导出了参与并行计算的最佳处理机数目 ,给出了加速比的估算公式。通过模拟算例可知 ,该算法的特殊结构适合在机群系统上进行并行计算 ,特别对聚类点集相当大的聚类问题 ,由于任务间的通信开销与计算量相比很小 ,能够达到很好的并行效果 相似文献
11.
针对平面管理结构在大规模卫星集群网络中的缺点,提出了一种自适应分布式加权分簇算法(adaptive distributed weighted clustering algorithm,ADWCA),该算法根据卫星网络运行的可预测性,在初始化阶段由地面计算各卫星节点综合权值并划分簇首和成员节点,完成之后上注到星上,之后集群中卫星节点根据邻居及自身信息完全分布式地执行维护进程.仿真分析表明,与最小标识优先分簇算法和最大连接度优先分簇算法相比,该算法生成的簇结构具有更少的簇数量、良好的稳定性,且能够有效均衡簇头节点的负载. 相似文献
12.
基于工作站或高性能微机群组的并行计算,是并行计算领域研究的热点。常见的并行环境有MPI等,但它们编程复杂,并行程序的可移植性差。该文介绍了一种有效的并行计算模型BSP,它的并行编程容易,性能可预测,程序的可移植性好。 相似文献
13.
基于遗传算法的Web集群负载均衡方法 总被引:3,自引:2,他引:3
Web集群技术解决了Web服务器系统的容量问题,其核心思想是负载均衡策略和算法。在此对Web集群中的负载均衡技术进行了分析和探讨,并提出一种混合遗传算法。仿真实验表明,这种算法能有效解决Web集群的负载均衡问题,并且能避免标准遗传算法的早熟收敛现象,同传统的负载均衡方法相比,降低了任务执行时间。 相似文献
14.
针对并行程序设计的五种模式中主从模式的不足,提出了基于移动agent的负载均衡策略.该策略对移动agent获取的数据进行分析,合理地分配各个结点的处理数据量,明显地减少了程序的运行时间. 相似文献
15.
16.
The k-means clustering algorithm is one of the most commonly used algorithms for clustering analysis. The traditional k-means algorithm is, however, inefficient while working on large numbers of data sets and improving the algorithm efficiency remains a problem. This paper focuses on the efficiency issues of cluster algorithms. A refined initial cluster centers method is designed to reduce the number of iterative procedures in the algorithm. A parallel k-means algorithm is also studied for the problem of the operation limitation of a single processor machine when given huge data sets. The analytical results demonstrate that these improvements can greatly enhance the efficiency of the k-means algorithm, i.e., allow the grouping of a large number of data sets more accurately and more quickly. The analysis has theoretical and practical importance for work on the improvement and parallelism of cluster algorithms. 相似文献
17.
Web集群技术解决了Web服务器系统容量问题,其核心思想是负载均衡策略和算法。传统的策略对某些站点类型有效,而不能满足各种类型站点的要求。笔者分析了各种类型站点的负载特点,讨论了负载均衡需要解决的主要问题,提出了一种基于内容的Web集群负载均衡策略和相应的负载均衡算法,并通过仿真实验验证了该策略和算法的有效性。 相似文献
18.
随着高速网络技术的快速发展,机群系统已经成为并行计算的主要平台,由于它的高通信延迟,某些在并行机上实现的细粒度并行算法已不适合在该环境下运行,为此有必要研究它们在机群系统中的并行实现。基于这一点,对矩阵的QR分解提出了一种新的任务划分策略,并由此得到了它的一种粗粒度并行算法。实验结果表明,设计的并行算法在机群系统中具有较高的加速比。 相似文献
19.
一种高效并行关联规则挖掘新算法 总被引:1,自引:0,他引:1
提出了一种在微机集群上实现的高效并行算法。该算法利用矩阵理论中上三角矩阵的良好性质,通过数据库约简、投影等操作,在微机集群的各节点上开展并行挖掘,从而提高挖掘算法的效率和可扩性。在微机集群上的实验证明,该算法能大大提高关联规则的挖掘效率,并具有良好的可扩性。 相似文献