首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

2.
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型.  相似文献   

3.
以云计算和大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。  相似文献   

4.
大数据解决方案的分布式架构、海量数据存储、内存数据存储等特点给针对Hadoop的电子数据取证带来了巨大的挑战。概述了传统计算机取证的流程、要点以及在大数据取证过程中的局限性。以Hadoop为例,从Hadoop取证生态系统角度介绍了大数据解决方案的架构,分析了大数据取证的数据源、方法、流程、工具等,为调查人员进行大数据调查取证时提供参考。  相似文献   

5.
随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注.如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题.本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法.对不同硬件配置的Hadoop集群,选取CPU密集型和L/0密集型任务进行效能测试与评价.由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义.  相似文献   

6.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

7.
张瑞 《甘肃科技纵横》2014,43(11):29-30
目前针对电信大数据管理应用技术的研究方法与手段众多,但目前主要集中在Hadoop架构的数据存储及应用开发上,采用Hadoop对于电信大数据的应用主要包括存储系统(HDFS)、计算系统(Map Reduce)和HBase。该框架的实现为我国高效合理的电信大数据管理提供了一种解决问题的新思路。  相似文献   

8.
为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大数据环境并使用实际生产数据对系统性能进行测试,实验结果表明,引入Hadoop/Hive技术后,系统的平均数据存储速度、平均数据访问速度、平均数据交互速度分别提升了87.43%、27.10%、58.16%.改进后的乳制品溯源系统存储和处理大规模数据的能力明显优于传统的乳制品溯源系统.  相似文献   

9.
Hadoop已经成为大数据平台的事实标准,当用户要求它成为全栈平台时,MapReduce为批处理而设计的局限日益显现。文中将SSD引入大数据的内存缓存存储解决方案,阐述了SSD和HDD的混合存储架构;同时,结合高效的计算模型Spark等优化技术,设计了一种基于SSD的高性能Hadoop系统,分别有效地解决大数据计算系统的性能问题和存储空间问题,实验性能评测显示取得了显著效果。  相似文献   

10.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

11.
通过电子书包、移动学习终端、在线学习应用等,可捕获大量的学习行为数据.如何利用这些大数据是目前教育信息化领域亟需研究的问题.本文首先分析了教育信息化领域对学习分析的需求和研究对象.接着引入大数据技术,设计以Hadoop为核心的学习分析系统,构建基于学习分析的智能数字化教育服务,并列举此技术方案的具体应用案例.最后,提出需要解决Hadoop应用在学习分析领域的技术问题.  相似文献   

12.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

13.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。  相似文献   

14.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

15.
介绍开源Hadoop云平台的一些主要特点及其数据存储的优势.通过把云平台自身特点与地理系信息系统的构架设计相结合,提出了基于Hadoop云平台的地理信息系统构架,使地理信息系统具有云的相关特性.该地理信息系统能解决地理信息数据量大、种类繁多的数据在计算等方面有一定的优势,从而大大提高了云GIS系统的效率.  相似文献   

16.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

17.
针对受限玻尔兹曼机(RBM)面对大数据时存在模型训练缓慢的问题,设计了基于Hadoop的RBM云计算实现方法.针对RBM训练方法,改进了Hadoop任务消息通信机制以适应模型迭代周期短的特点;设计了MapReduce框架,包括Map端实现吉布斯采样,Reduce端完成参数更新;依据Hadoop任务组合方式,将RBM的训练应用于深度玻尔兹曼机(DBM)中.通过手写数字识别实验证明,该计算方法在大规模数据条件下能够有效加速RBM训练,且适应于深度学习模型的学习.  相似文献   

18.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

19.
针对大数据图像分类耗时长、 实时性差等问题, 利用云计算技术的优点, 以获得理想的大数据图像分类结果为目标, 提出一种基于Hadoop平台的大数据图像分类机制. 首先收集大量的图像, 构建图像数据库, 并提取图像分类的有效特征; 然后基于Hadoop平台, 采用Map函数对大数据图像分类问题进行细分, 用多节点并行、 分布式地对子问题进行图像分类求解, 得到相应的图像分类结果; 最后利用Reduce函数对子问题的图像分类结果进行组合, 并用VC++6.0编程实现大数据图像分类的仿真模拟测试. 测试结果表明, 该分类机制较好地克服了当前图像分类机制存在的弊端, 大幅度缩短了图像分类的时间, 分类速度可适应大数据图像分类的在线要求, 且图像分类的整体效果明显优于当前其他图像分类机制.  相似文献   

20.
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号