首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.  相似文献   

2.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

3.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

4.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

5.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

6.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

7.
数制之间相互转换的并行算法   总被引:4,自引:0,他引:4  
数制转换是计算机科学中一种最基础的运算,但现有的算法基本上都是串行算法。随着并行计算机的出现,并行算法的研究也越来越受到人们的重视。要发挥并行计算机的作用,提高并行计算机资源的利用率,必须有一套强有力的并行算法的支持。本文给出了十进制与其它进制之间相互转换的并行算法,并对算法的性能进行了分析。  相似文献   

8.
传统的套牌车识别算法通过串行工作方式在网格化城市交通监控系统所产生的大规模数据中进行两两比对实现套牌车检测,因此在处理海量数据时存在性能瓶颈问题.提出了一种新的基于Hadoop的MapReduce算法模型,该算法具有并行特征,通过引入多台硬件计算资源协同处理大规模数据下的套牌车检测问题,显著提高了计算性能.同时,采用基于动态旅行时间实时的时空窗口计算技术,能进一步提高算法的检测速度和识别精度.  相似文献   

9.
针对单机环境下图像检索算法存在的计算瓶颈问题,提出1种基于Hadoop平台Map-Reduce框架的图像检索改进算法.首先利用云存储和分布式算法的优点,对图像检索算法进行并行化设计,然后通过改进的K-Means和Bo F算法,对原有图像检索算法进行优化,提高检索效率和准确性.实验结果表明,提出的方法能够很好地提高图像检索算法的执行速度,同时获得较好的图像检索准确性.  相似文献   

10.
基于数据依赖关系的程序自动并行化方法   总被引:1,自引:0,他引:1  
针对目前大量串行遗产程序无法在高性能并行计算机上高效运行的问题,提出一种基于数据依赖关系分析技术的程序自动并行化方法,采用数据依赖关系分析技术对串行程序进行分析,将串行程序中基本块分成两类:彼此间具有依赖关系的基本块和彼此间无依赖关系的基本块,通过对无依赖关系的基本块进行并行处理实现串行程序的自动并行化,从而解决了在对串行程序自动并行处理时开销增大的缺点,并得到较好的并行优化结果.实例分析结果表明,该方法可以识别出可并行执行的基本块,实现串行程序的自动并行化.  相似文献   

11.
网格计算是近年来逐渐兴起并不断发展的技术,目前广泛应用于分布式超级计算、分布式仪器系统、数据密集型计算和远程沉浸等多个研究领域。常规人脸识别系统中的更新算法都是基于单机的串行算法,在处理大量数据的时候速度慢,效率低,介绍了网格计算在人脸识别系统中的应用,把原来的人脸数据更新串行算法改为并行算法并通过编写MPI并行程序移植到该网格计算平台中运行,实现了原有人脸识别系统中更新算法的分布式处理,增强了系统处理大量数据的能力,以达到提高系统性能的目的。  相似文献   

12.
提出迭代式分割与合并的算法(IDMSVD),以改善最小平方估计的奇异值分解法在估计参数时非常耗费时间以及内存空间的问题。基于此又提出一种使用云计算Hadoop平台MapReduce实现的算法,称为分布式IDMSVD算法。实验结果显示,IDMSVD可以有效地改善SVD求最小平方解耗费运行时间与内存空间的问题,且分布式IDMSVD算法可进一步改善IDMSVD的运行时间。  相似文献   

13.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

14.
三维数值流形方法(three dimensional numerical manifold method,3D-NMM)是岩土工程数值模拟中强大的数值方法之一。但一直存在接触判断困难、计算处理数据量大,效率低等问题。将并行计算技术应用于三维数值流形方法覆盖系统生成可以有效提升其覆盖系统的生成效率。详细研究了并行编程模式下三维数值流形法覆盖系统的生成算法。基于MPI分布式内存编程原理,将分区覆盖生成作为三维数值流形法并行覆盖生成基本思路。先采用规则粗六面体网格覆盖问题域,并利用Metis划分网格形成负载基本均衡的子区域,在原有串行算法的基础上设计了子区域覆盖系统的生成算法。并基于分布式内存存储模式下不同区域间数据传递需求,对本并行算法建立了界面信息传递算法,用以并行计算过程不同区域间中数据交流。最后,使用C++开发了基于布尔运算的三维数值流形单元及覆盖系统并行生成算法。算例表明此并行覆盖系统生成算法可有效提高三维数值流形法覆盖系统的生成效率及其应用规模  相似文献   

15.
针对多基线相位干涉仪测角雷达在通道相位误差较大时解模糊结果存在异常的问题,提出了一种基于有限记忆算法的干涉仪解模糊异常值检测与纠错方法.该方法利用逐次测角算法的初次解模糊结果估计角度和整周模糊值的初始值,在此基础上进行角度和整周模糊值的有限记忆递推,识别原始测角数据中存在的数据异常值,对其进行异常值剔除或重新解模糊纠错处理.仿真结果表明,该方法原理正确,对于干涉仪解模糊数据中出现的孤立型及连续型异常值都能够进行有效的检测并予以纠正,显著降低了解模糊的出错概率.  相似文献   

16.
开发了基于图形处理器(GPU)的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度.  相似文献   

17.
一种提高云存储中小文件存储效率的方案   总被引:3,自引:0,他引:3  
针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并.实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了小文件的存储效率.  相似文献   

18.
为了解决批量生产、制造、装配等车间调度问题,基于Hadoop集群,提出应用禁忌粒子群算法的车间调度及其并行化实现.以某装载机制造车间最小化完成时间为目标,通过使用禁忌粒子群算法对车间调度问题进行求解.结果表明:在车间批量大的情况下,禁忌粒子群算法可得出有效的调度方案,避免算法陷入局部最优解.与现有的智能算法相比,禁忌粒子群算法更有利于实现全局最优解.  相似文献   

19.
针对大数据图像分类耗时长、 实时性差等问题, 利用云计算技术的优点, 以获得理想的大数据图像分类结果为目标, 提出一种基于Hadoop平台的大数据图像分类机制. 首先收集大量的图像, 构建图像数据库, 并提取图像分类的有效特征; 然后基于Hadoop平台, 采用Map函数对大数据图像分类问题进行细分, 用多节点并行、 分布式地对子问题进行图像分类求解, 得到相应的图像分类结果; 最后利用Reduce函数对子问题的图像分类结果进行组合, 并用VC++6.0编程实现大数据图像分类的仿真模拟测试. 测试结果表明, 该分类机制较好地克服了当前图像分类机制存在的弊端, 大幅度缩短了图像分类的时间, 分类速度可适应大数据图像分类的在线要求, 且图像分类的整体效果明显优于当前其他图像分类机制.  相似文献   

20.
为了对电力物联网背景下的海量负荷数据进行精细化分析,从中提取用电模式,提出一种基于Hadoop分布式并行计算的混合神经网络分类模型。首先,基于时间维度的一维卷积神经网络(1DCNN)搭建“负荷特征提取器”;其次,使用长短期记忆网络(LSTM)搭建“序列分类器”;最后,将该“混合神经网络分类方法”在Hadoop平台上搭建,实现算法的并行化运行,以适用于海量负荷曲线的高效辨识。使用标准时序数据与真实负荷数据测试该方法的分类性能,算例结果表明所提分类方法具有较高的分类精度,经并行化处理后有效提高了负荷数据的处理效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号