首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 179 毫秒
1.
通过电子书包、移动学习终端、在线学习应用等,可捕获大量的学习行为数据.如何利用这些大数据是目前教育信息化领域亟需研究的问题.本文首先分析了教育信息化领域对学习分析的需求和研究对象.接着引入大数据技术,设计以Hadoop为核心的学习分析系统,构建基于学习分析的智能数字化教育服务,并列举此技术方案的具体应用案例.最后,提出需要解决Hadoop应用在学习分析领域的技术问题.  相似文献   

2.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

3.
随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注.如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题.本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法.对不同硬件配置的Hadoop集群,选取CPU密集型和L/0密集型任务进行效能测试与评价.由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义.  相似文献   

4.
大数据解决方案的分布式架构、海量数据存储、内存数据存储等特点给针对Hadoop的电子数据取证带来了巨大的挑战。概述了传统计算机取证的流程、要点以及在大数据取证过程中的局限性。以Hadoop为例,从Hadoop取证生态系统角度介绍了大数据解决方案的架构,分析了大数据取证的数据源、方法、流程、工具等,为调查人员进行大数据调查取证时提供参考。  相似文献   

5.
针对当前电信分组域监测系统海量数据应用环境的高效性、可扩展性和安全性的不足,提出一种基于云存储的新监测系统.新系统采用Hadoop云存储技术,融合了电信私有云,解决了系统及时处理和存储海量数据的难题,优化了系统整体的性能.通过测试验证,新系统稳定可靠,适合电信大容量监测需要.  相似文献   

6.
 随着谷歌文件系统和宽表结构为代表的技术打破依赖关系数据库管理海量数据的限制,以Apache Hadoop为代表的开源大数据管理系统软件新技术与系统不断涌现,并快速成熟应用。针对Apache开源社区中面向在线事务处理和在线分析处理场景的大数据管理软件,介绍了大数据管理中的数据存储、数据分区、副本机制、分布式协议等,并比较分析了分布式文件系统、键值库、时序数据库等典型分布式数据管理系统的优缺点。  相似文献   

7.
物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map对各个数据块完成初始聚类,并在Reduce上基于核心点扩展类融合形成最终聚类结果,以此提高大数据应用的效率。通过应用大数据对港口企业进行全面管理,为企业决策提供有效支持。  相似文献   

8.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

9.
针对受限玻尔兹曼机(RBM)面对大数据时存在模型训练缓慢的问题,设计了基于Hadoop的RBM云计算实现方法.针对RBM训练方法,改进了Hadoop任务消息通信机制以适应模型迭代周期短的特点;设计了MapReduce框架,包括Map端实现吉布斯采样,Reduce端完成参数更新;依据Hadoop任务组合方式,将RBM的训练应用于深度玻尔兹曼机(DBM)中.通过手写数字识别实验证明,该计算方法在大规模数据条件下能够有效加速RBM训练,且适应于深度学习模型的学习.  相似文献   

10.
<正>Hadoop是如今大数据革命的代表性技术,做Hadoop相关产品有很多,其中有很多不一样的选择和变种,比较知名的有Cloudera、Hortonwork、亚马逊EMR、Storm和Spark。这些都是Hadoop的忠实"粉丝"。想要搞清楚大数据和H ad oop的关系,我们还得先认识一下Hadoop。  相似文献   

11.
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型.  相似文献   

12.
数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设,提供数据、管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度融合,提出一种数据统一存储、统一管理、统一处理、统一服务的一站式的大数据服务平台的建设思路,为高校大数据平台建设提供一个参考依据。  相似文献   

13.
如今,大数据(Big Data)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据.事实上,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理.随着云时代的来临,大数据引发的巨大价值正在为人们所关注并追逐. 大数据,大影响 业界将大数据的特征概括为4V:"Volume,Variety,Value,Velocity",即数据量巨大、数据类型繁多、高价值和高速度,这些特征对传统数据库管理工具提出了巨大挑战.大数据的分析因为导入数据量大、查询涉及的数据量大、查询请求多等原因而遇到不少困难,目前主要使用的产品包括InfoBright、Hadoop、YunTable、SAP Hana和Oracle Exadata等.  相似文献   

14.
邱焯 《上海信息化》2016,(12):68-71
在过去十年间,全世界的数据量每两年大约增加10倍.因此,人们需要利用更高效的方式来处理数据.在强烈的需求推动下,大数据技术发展日新月异.在全球去IOE的大背景下,Hadoop技术已成为公认的替代传统数据库的大数据产品.星环信息科技(上海)有限公司(以下简称“星环科技”)通过基于大数据基础软件的研发,为企业开发了一站式大数据综合平台Transwarp Data Hub(以下简称“TDH”),并支持各种复杂的应用场景.其产品已在多个领域发挥作用,帮助企业更顺利地开展自身业务.  相似文献   

15.
全国综合气象信息共享平台(CIMISS)为各省提供了统一标准的数据环境,但由于各级气象部门对数据需求的多样性和复杂性造成CIMISS承受巨大的处理压力,尤其对非结构化数据的存储和处理显得略微不足。针对上述问题,提出了基于CIMISS扩展的气象数据存储应用系统,并给出了基于Hadoop HDFS的非结构化数据存储应用扩展。目前,该系统已经开始试运行,运行效果良好,能够对气象业务起到一定的支撑作用。  相似文献   

16.
随着信息技术的迅速发展,"大数据"这一名词逐渐在各行各业中产生了巨大的影响。大数据技术主要包含了数据挖掘(采集)、数据分析、数据储存等技术,前两者与客户关系管理的业务紧密联系。目前,大部分国家都已认识到大数据的价值,并将其作为战略性技术来开展研究与应用。在企业客户关系管理中,基于大数据的高水平信息化平台,可高效推动营销,达到企业扩张、加速盈利的目标。  相似文献   

17.
针对目前校园海量数据存储面临的服务器资源利用率低、管理维护成本高等问题,在云存储技术的基础上提出了校园云存储服务的设计,并进行了实验.为减少读写速率的损失,系统通过调用HDFS(Hadoop distributed filesystem)的API接口方式实现数据存储及对集群的状态监控和管理.实验表明:传输文件的大小和集群中数据节点的个数对云存储服务的数据读写速率的影响较大;HDFS并行传输大量小文件的速率相对较低.  相似文献   

18.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

19.
 石油勘探开发精度的不断提高,促进了低频可控震源、宽频带、宽方位、高密度和高效采集技术的推广应用,石油地震勘探已进入了大数据时代,对质量监控、数据处理、数据安全存储和管理带来了新的挑战。本文分析了石油地震勘探大数据的特点,阐述了中国石化基于Hadoop分布式大数据处理系统研发的π-Frame地震数据处理解释软件平台基本构架,举例说明了该平台在石油地震勘探大数据中的应用,对其发展前景进行展望。  相似文献   

20.
大数据是信息社会的重要战略资源,是数据经济发展的根基。自新冠疫情发生以来,电信运营商作为大数据资源的掌握者,充分运用大数据分析等方法支撑疫情防控工作,为疫情阻击战提供有力支撑,本文重点探讨如何将电信运营商在大数据领域的能力服务用于疫情防控,并对重要应用场景进行示例说明,研究结论可为政府相关管理部门对疫情态势研判、疫情防控部署以及对流动人员的疫情监测提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号