首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

2.
云计算模型在铁路大规模数据处理中的应用   总被引:1,自引:0,他引:1  
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性.  相似文献   

3.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

4.
云计算技术是海量数据挖掘的一种高效解决方案,将MapReduce并行计算模型与粗糙集属性约简算法相结合,提出一种基于MapReduce的浓缩布尔矩阵并行属性约简算法.该算法提高了粗糙集属性约简算法对大数据的处理能力和效率,并能适应云计算环境.实验结果表明,所提算法具有良好的效率、加速比和可扩展性.  相似文献   

5.
应毅  任凯  曹阳 《科学技术与工程》2013,13(5):1205-1209
基于单一服务器的Web挖掘系统在处理海量数据集时计算能力不足,针对该问题,提出了一种基于云计算的挖掘方法。将大数据集和挖掘任务分解到多台计算机上并行处理。实现了一个基于Hadoop开源框架的并行Web挖掘平台,同时提出了一种改进的MapReduce模型——MapReduce-LP。并通过对电子商务系统中Web日志的挖掘工作验证了系统的有效性和新模型的高效性。实验表明,在集群中使用云计算技术处理大数据集,可以明显提高挖掘效率。  相似文献   

6.
云环境中基于金字塔模型的影像数据存储方法   总被引:1,自引:0,他引:1  
随着卫星遥感获取技术的发展,影像数据量呈几何式增长,传统数据存储技术已经无法适应海量影像数据的处理要求.结合金字塔模型和MapReduce架构提出了一种适用于云计算环境的分布式并行存储方法—BMLStorage(storage based on MapReduce and local file system),该方法基于金字塔模型对影像数据进行分层分块处理,并对所得瓦片重新编码.定义了一种新的存储规则,使得所有瓦片可以按照此规则利用Hadoop中的MapReduce框架实现并行存储.实验表明,该方法与现有方法相比,在海量影像数据存储性能方面有一定的提高.  相似文献   

7.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

8.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

9.
对云计算技术和数据挖掘进行研究,分析Apriori算法,针对其局限性,提出优化方案,引入云计算中MapReduce模型,实现并行化。提出一种基于MapReduce的频繁项集挖掘方法,以提高算法的运行效率,降低算法执行所需的开销。  相似文献   

10.
在常见的特征提取方法中,Fisher判别分析(Fisher Discriminant Analysis,FDA)只能提取线性特征,基于核的方法具有提取非线性特征的能力,但对核函数类型及其参数十分敏感. 文中研究如何有效提取数据特征,提出了一种基于多层自动编码机(Stacked AutoEncoders,SAE)和Fisher标准的特征提取算法,该算法中所使用的深度学习网络模型在训练过程中结合无监督特征提取SAE以及有监督的特征提取FDA. 通过与多层自动编码机、极限学习机(Extreme Learning Machine,ELM)等模型提取的特征进行对比,在数据集Pendigits、mnist、ORL和AR上利用支持向量机对数据特征进行分类,结果表明基于SAE的Fisher变换(FDA-SAE)在分类结果准确率以及分类时间上都有较好的效果. 特别是在小数据集AR上,当样本特征较少的情况下效果非常明显.  相似文献   

11.
面向海量高分辨率遥感影像数据快速发布需求,针对当前云环境下遥感影像数据并行重采样存在的难题,结合云平台MapReduce并行计算框架特性和遥感影像数据处理特点,提出了一种基于预分片的遥感影像数据并行重采样方法,通过预分片机制有效实现了该框架中对影像数据分片和并行重采样任务的控制,解决了MapReduce难以用于并行处理非结构化、具有空间位置特征的遥感影像数据的问题,从而实现了云环境下遥感影像数据的高效并行重采样.通过在开源云平台Hadoop上的实验和分析表明,该方法具有良好的重采样性能,能够实现高分辨率遥感影像数据的高效重采样.  相似文献   

12.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

13.
为确保大数据云存储下海量数据传输的完整度,提出了一种基于属性特征匹配和关联规则的海量数据传 输完整度控制方法。构建海量数据的属性特征高维重组模型,得到关键信息的特征分布状况,据此设计海量数 据的关键信息存储分布结构模型,采用关联规则方法进行海量数据的关键信息特征挖掘提取,利用关键信息进 行海量数据的特征分析和数据聚类处理,采用属性特征匹配方法设计海量数据关键信息存储节点后,利用模糊 减法聚类对关键信息存储节点进行聚类处理,在海量数据传输中,以数据关键信息存储节点传输的完整度实现 海量数据的传输完整度控制。仿真结果表明,采用该方法进行海量数据传输完整度控制,能提高云存储下的空 间利用效率,数据传输完整度高。  相似文献   

14.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

15.
云计算及其架构模式   总被引:2,自引:0,他引:2  
为了构建有效、稳定的云计算平台环境并对其应用性能进行研究,采用理论分析和实践设计的方法,研究了云计算的关键技术,包括云数据中心串联、云数据存储管理技术和云编程模型,提出了一个通用的云计算架构模型,实现了一个基于Hadoop的实际云平台。研究结果表明:该通用架构模型与NIST模型具有良好的一致性,构建的云平台具有较好的分布式计算性能。该成果对云计算架构模型的研究具有一定的理论指导意义和实际应用价值。  相似文献   

16.
廖海生 《河南科学》2014,(12):2505-2510
随着大数据存储需求的不断扩大,网络存储技术面临如何存储并管理海量数据的问题.通过对现有各种大数据存储模型进行了对比分析,针对现有存储模型存储的局限性和大数据存储的特点,提出了一种基于数据特征的面向对象存储思想.采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型.在仿真环境中,对该模型的分类关键模块与非结构化数据存储性能进行了测试与分析,实验结果表明该模型分类模块误差较小,读写效率较高,而且随着数据的增大,非结构化存储性能保持稳定.  相似文献   

17.
针对在关联规则的实际挖掘中,由数据快速增加所造成的大数据问题和增量更新问题?在快速更新频繁模式树算法(fast updated frequent pattern tree,FUFP - tree)的基础上,引入MapReduce 编程模型,提出了一个面向大数据的并行的关联规则增量更新算法(parallel fast updated frequent pattern tree,PFUFP - tree)?该算法通过构建原始事务数据的分块索引,从而使得在每次增量更新时,能够最小化地扫描原始事务数据库,提高了挖掘效率;同时采用动态负载均衡的项目分组策略来优化并行计算过程中的项集分组问题,从而保证分布式集群中节点之间的负载均衡;实验结果证明,提出 的算法是有效的和高效的,适用于动态增长的大数据环境?  相似文献   

18.
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号