首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 212 毫秒
1.
为了提高地理数据水印算法嵌入和检测水印信息的效率,提出了一种基于MapReduce的地理数据水印方法.该方法以MapReduce编程模型为基础,采用目前鲁棒性最好的基于可变步长量化调制的地理数据水印(VSQM)算法,在水印信息嵌入和检测时并行地处理目标地理数据中的地物,使得该方法的效率较之传统地理数据水印方法大为提高.最后在一个地理数据在线交易系统环境下实现了该方法,并通过一系列实验证实了所提出的方法能够有效提高地理数据水印方法的效率.  相似文献   

2.
云计算技术是海量数据挖掘的一种高效解决方案,将MapReduce并行计算模型与粗糙集属性约简算法相结合,提出一种基于MapReduce的浓缩布尔矩阵并行属性约简算法.该算法提高了粗糙集属性约简算法对大数据的处理能力和效率,并能适应云计算环境.实验结果表明,所提算法具有良好的效率、加速比和可扩展性.  相似文献   

3.
传统的套牌车识别算法通过串行工作方式在网格化城市交通监控系统所产生的大规模数据中进行两两比对实现套牌车检测,因此在处理海量数据时存在性能瓶颈问题.提出了一种新的基于Hadoop的MapReduce算法模型,该算法具有并行特征,通过引入多台硬件计算资源协同处理大规模数据下的套牌车检测问题,显著提高了计算性能.同时,采用基于动态旅行时间实时的时空窗口计算技术,能进一步提高算法的检测速度和识别精度.  相似文献   

4.
基于MapReduce的粒子群投影寻踪模型的设计与实现   总被引:1,自引:0,他引:1  
利用MapReduce模式设计并实现了粒子群投影寻踪算法的并行化,以提高算法的效率.在分类阶段使用了基于MapReduce的KNN分类算法并行,实验结果表明:基于MapReduce实现的粒子群投影寻踪模型能够有效地寻找到较好的投影方向,确保分类效果;并且与其串行算法相比,在实现效率上有较大的提高.  相似文献   

5.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

6.
基于FP-Growth算法,提出一种并行加权的关联规则挖掘(PWARM)算法,证明其满足加权向下封闭性.使用MapReduce计算模型,在分布式集群中并行挖掘出关联规则.实验结果表明:该算法可以满足数据权重不同的需求,且在处理大数据集时能有效地提高挖掘的效率.  相似文献   

7.
针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhash算法进行并行化分析,利用MapReduce框架结构对图聚类分析稀疏化操作过程中的多个任务进行了高效的推算分析与处理,并在Hadoop计算环境下,通过模拟实验对提出的高效图稀疏化处理算法的性能进行了测试。测试结果表明:基于并行计算的高效图稀疏化处理算法可行,能对图聚类数据信息进行快速稀疏化处理。  相似文献   

8.
MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.  相似文献   

9.
遥感定量反演的对象为多源遥感数据,处理过程不可避免地涉及到海量数据处理、信息提取和分析.遥感反演既是计算密集型,同时又是数据密集型的科学应用.随着反演理论和技术的发展,地表遥感模型复杂化,数据量呈爆炸式增长,相应地对计算能力的要求也越来越高.同时,随着我国空间技术的不断发展,卫星数据正以指数级的形式迅速增长,对相关应用系统的存储和计算能力也提出了很高的要求.基于以上原因,采用云计算框架,利用Hadoop平台设计该PM_(2.5)卫星遥感监测系统.其中,第一部分介绍了整个系统的架构设计,自上而下包括四个部分;第二部分对该系统的核心算法进行了详细的阐述,利用HDFS和MapReduce分别实现了对海量数据的冗余存储和并行化处理;第三部分进行了性能分析及实例测试,通过详细的对比,可以发现MapReduce并行计算在很大程度上能够提高系统的运行效率;最后对本系统进行总结和展望.通过对"高分一号"卫星数据获得的PM_(2.5)产品进行加速比分析,验证了系统具有高处理效率和高可用性等优点.  相似文献   

10.
针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善.  相似文献   

11.
The performance of existing diffusion-based algorithms in recommender systems is still limited by the processing ability of a single computer .In order to conduct the diffusion computation on large data sets, a parallel implementation of the classic diffusion method on the MapReduce framework is proposed.At first, the diffusion computation is transformed from a summation format to a cascade matrix multiplication format , and then , a parallel matrix multiplication algorithm based on dynamic vector is proposed to reduce the CPU and I/O cost on the MapReduce framework , which can also be applied to other parallel matrix multiplication scenarios .Then, block partitioning is used to further improve the performance , while the order of matrix multiplication is also taken into consideration . Experiments on different kinds of data sets have verified the efficiency of the proposed method .  相似文献   

12.
Apriori是挖掘关联规则最经典的算法之一,针对该算法存在的瓶颈问题研究了基于MapReduce编程框架的简单Apriori并行算法;并在简单Apriori并行算法的基础上提出一种采用固定多阶段结合挖掘策略的改进算法——多阶段并行算法。实验结果表明,改进算法能缩短挖掘时间,提高执行的效率。  相似文献   

13.
应毅  任凯  曹阳 《科学技术与工程》2013,13(5):1205-1209
基于单一服务器的Web挖掘系统在处理海量数据集时计算能力不足,针对该问题,提出了一种基于云计算的挖掘方法。将大数据集和挖掘任务分解到多台计算机上并行处理。实现了一个基于Hadoop开源框架的并行Web挖掘平台,同时提出了一种改进的MapReduce模型——MapReduce-LP。并通过对电子商务系统中Web日志的挖掘工作验证了系统的有效性和新模型的高效性。实验表明,在集群中使用云计算技术处理大数据集,可以明显提高挖掘效率。  相似文献   

14.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.  相似文献   

15.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势.  相似文献   

16.
针对在关联规则的实际挖掘中,由数据快速增加所造成的大数据问题和增量更新问题?在快速更新频繁模式树算法(fast updated frequent pattern tree,FUFP - tree)的基础上,引入MapReduce 编程模型,提出了一个面向大数据的并行的关联规则增量更新算法(parallel fast updated frequent pattern tree,PFUFP - tree)?该算法通过构建原始事务数据的分块索引,从而使得在每次增量更新时,能够最小化地扫描原始事务数据库,提高了挖掘效率;同时采用动态负载均衡的项目分组策略来优化并行计算过程中的项集分组问题,从而保证分布式集群中节点之间的负载均衡;实验结果证明,提出 的算法是有效的和高效的,适用于动态增长的大数据环境?  相似文献   

17.
针对现有的快速方差分析算法进行并行可扩展性改进, 设计一种高效的并行计算模型, 并提出一种基于MapReduce模型的基因 基因相互作用识别算法--MRANOVA算法. 该算法有效解决了现有基因 基因相互作用识别算法在海量数据规模下普遍存在计算复杂度过高的问题. 实验结果表明, 该算法充分利用了云平台的并行计算能力, 随着数据量的增大, 加速比逐渐接近于集群数量, 可高效准确地完成基因 基因相互作用的识别.  相似文献   

18.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号