首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对大规模路网路径搜索算法计算量大、耗时长、效率低等问题,采用MapRe-duce并行编程模型计算框架,利用网络中大量不同位置的计算机进行集群式海量数据计算,解决基于大规模路网分割成若干子图并行计算问题.本文基于MapReduce构建一个新的计算框架,建立了基于子图分割的并行搜索方法,实现超大规模真实交通路网中最短路径搜索.案例分析证明:该方法能够在可接受的计算时间内提供高质量的最短路径搜索服务.  相似文献   

2.
利用Hadoop的并行式处理技术改进了遗传算法.通过将种群划分为多个子种群,并将每个子种群由一个单一的MapReduce任务来处理,实现了遗传算法的并行化.通过解决OneMax问题的一系列实验,验证了基于Hadoop的遗传算法提高了运行效率与正确性.  相似文献   

3.
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响.本文设计和实现一种基于MapReduce架构的并行决策树分类算法.实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能.  相似文献   

4.
概念格是形式概念分析中的核心数据结构.对此提出运用划分分治和分层约束的方法研究MapReduce框架下概念格并行生成算法以有效地构造概念格.将形式背景按对象划分成外延独立子背景后并行计算子背景上的临时概念,融合各节点临时概念形成全局概念.全局概念按照各概念外延基数进行分层,通过分层约束计算概念父子节点的搜索范围和并行搜索各层概念的父子节点,进而构建概念格.算法基于MapReduce框架实现并在公共数据集上进行测试,实验结果表明,基于概念分层方法的概念格并行构造算法能够对大数据形式背景有效地进行处理.  相似文献   

5.
基于MapReduce并行的Apriori算法改进研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于MapReduce实现的Apriori简单并行算法,产生了大量值为1的键/值对,影响了算法效率.提出一种分组统计策略的Apriori并行算法,有效地减少了键/值对的产生.实验结果表明,改进的基于MapReduce并行的Apriori算法在时间性能上有了很大的提升,并且随着集群节点的增加,算法的加速比线性提高.  相似文献   

6.
针对传统生物进化树执行效率不高的问题,提出一种网格化MapReduce-Robinson-Foulds(MRRF)距离矩阵并行生物进化树算法.首先,基于HashRF算法基本思想,设计实现了生物进化树MapReduce模型的网格化构建,以及网格参数计算;其次,利用两阶段MapReduce过程分别获得Robinson-Foulds距离子矩阵和联合后的距离总矩阵,实现了进化树在MapReduce架构下的Robinson-Foulds矩阵表示.最后,通过与Hash和HashRF算法进行对比,显示MRRF算法在运行时间和算法加速比上均要优于对比算法,并通过仿真对网格计算节点在不同核心数情况下对算法的影响进行了实验研究.  相似文献   

7.
针对目前海量数据挖掘过程中存在着频繁项集挖掘效率低、冗余项集繁多的问题,提出了改进的频繁模式树和遗传算法(FPGA),该算法鉴于异构数据的差异性特征,采用改进的频繁模式树和基于MapReduce的并行遗传算法搜索最大频繁项集,缩小了搜索范围,提高了挖掘效率.实验结果表明:该算法在时间复杂度方面有了很大提高,与传统的FP_Growth算法相比,具有更好的加速比以及更高的执行效率.  相似文献   

8.
为解决广域网分布式环境下异构车辆轨迹大数据的语义融合问题,基于MapReduce和ACO算法提出可在广域网环境分布式并行执行的异构大数据语义聚类融合DPACO方法.该方法在数据源端节点并行完成聚类运算中复杂度最高的部分,将所得结果合并为数据量较小的中间结果,然后将中间结果传送到中心节点并自适应地生成聚类中心.此外,该方法无需预设公共语义模型,通过移动计算避免移动大数据,大大提高了运算效率.实验比较了DPACO方法和已有基于MapReduce的并行化ACO方法,结果表明DPACO方法在广域网环境异构大数据语义融合中具有更好的可用性.  相似文献   

9.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

10.
基于MapReduce的粒子群投影寻踪模型的设计与实现   总被引:1,自引:0,他引:1  
利用MapReduce模式设计并实现了粒子群投影寻踪算法的并行化,以提高算法的效率.在分类阶段使用了基于MapReduce的KNN分类算法并行,实验结果表明:基于MapReduce实现的粒子群投影寻踪模型能够有效地寻找到较好的投影方向,确保分类效果;并且与其串行算法相比,在实现效率上有较大的提高.  相似文献   

11.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

12.
基于很多大数据应用存在对数据进行多种并行处理的需求, 提出两层混合式并行方法, 即执行单元的混合并行和计算模型的混合并行. 通过在同一个计算节点上执行单元的混合并行, 充分挖掘基础设施的计算能力, 从而提高数据处理性能; 采用在同一个执行引擎中集成多个计算模型的并行方法, 以适合应用多样异质处理模式. 不同的混合并行方法可以契合不同的数据和计算特点, 以满足不同的并行目标. 介绍了混合式并行方法的基本思想, 并以前期开发的并行编程模型BSPCloud为基础, 阐述了进程和线程混合并行、BSP和MapReduce混合并行的主要实现机制.  相似文献   

13.
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案.该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本.实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高.  相似文献   

14.
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性.  相似文献   

15.
利用计算机技术识别《四库全书》文字的研究起步较晚,本文在分析前人研究成果的基础上,基于并行遗传算法,把古体汉字识别问题表达为一类带约束条件的组合优化问题.运用特征属性进行编码,采用并行遗传算法中的适应度函数优化和迁移策略,较好地改善了搜索性能.实验结果表明:并行遗传算法能有效地提高文字识别质量.  相似文献   

16.
数量庞大、类型复杂的海量数据给智能交通带来了新的挑战.文中对交通诱导中的动态最短路径问题进行了研究,提出了动态交通网络数学模型,在此基础上设计了考虑交叉口延时的动态最短路径算法,并使用当前流行的大数据技术,设计了基于Ha Loop MapReduce的动态最短路径并行计算模型,最后在连续流智能交通管控平台上对算法进行了测试.实验结果表明,文中设计的算法和基于大数据的并行计算模型可以有效地查找到大规模路网中的动态最短路径,同时能很好地满足实时性需求.  相似文献   

17.
为了解决Algorithm_Add算法在挖掘大数据中的频繁模式时存在的内存占有量大和运行速度慢等问题,该文在深入研究Algorithm_Add算法的基础上,提出了基于MapReduce计算模型的并行挖掘算法——MRAlgorithm_Add。算法利用MapReduce模型对新增加模式进行处理,在各个节点上求出局部频繁模式,通过合并各个节点的结果得到全局频繁模式。介绍了MRAlgorithm_Add的设计思想,分析了算法的运行性能。实验结果表明MRAlgorithm_Add算法在Hadoop集群上运行,具有较好的加速比性能和良好的可扩展性。  相似文献   

18.
关键蛋白质的识别有助于从系统水平上理解生命活动过程,基于蛋白质相互作用网络拓扑特征的关键蛋白质识别可以有效地提高识别精度和速度.通过蛋白质节点的最短路径数和点介数可以作为衡量其节点中心度的方法,但计算速度和计算规模有限.根据所预测蛋白质相互作用网络的特点,提出了基于最短路径技术的关键蛋白质识别方法,选择合理的识别阈值和...  相似文献   

19.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

20.
面向海量高分辨率遥感影像数据快速发布需求,针对当前云环境下遥感影像数据并行重采样存在的难题,结合云平台MapReduce并行计算框架特性和遥感影像数据处理特点,提出了一种基于预分片的遥感影像数据并行重采样方法,通过预分片机制有效实现了该框架中对影像数据分片和并行重采样任务的控制,解决了MapReduce难以用于并行处理非结构化、具有空间位置特征的遥感影像数据的问题,从而实现了云环境下遥感影像数据的高效并行重采样.通过在开源云平台Hadoop上的实验和分析表明,该方法具有良好的重采样性能,能够实现高分辨率遥感影像数据的高效重采样.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号