共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
为解决医疗数据的高效存储与处理分析等问题,设计并开发了医疗大数据平台.首先,搭建并部署了Hadoop分布式文件系统,设计基于Tomcat服务器搭建的网站平台.然后,通过编写Hadoop WEB API将WEB服务器与分布式文件系统相结合,设计数据处理效率高的Python脚本程序读取并统计分析医疗数据.平台运行测试结果表... 相似文献
3.
大数据时代的诞生,为解决挖掘海量数据存储的信息带来了技术上的革命,通过网站点击存留的日志数据,分析这些数据,可获知许多对网站运营至关重要的信息。本文采用Hadoop分布式平台,使用HDFS数据存储,利用Hive来分析日志数据,设计一种Web日志分析系统,并阐述了系统的设计过程。 相似文献
4.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。 相似文献
5.
为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大数据环境并使用实际生产数据对系统性能进行测试,实验结果表明,引入Hadoop/Hive技术后,系统的平均数据存储速度、平均数据访问速度、平均数据交互速度分别提升了87.43%、27.10%、58.16%.改进后的乳制品溯源系统存储和处理大规模数据的能力明显优于传统的乳制品溯源系统. 相似文献
6.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。 相似文献
7.
目前针对电信大数据管理应用技术的研究方法与手段众多,但目前主要集中在Hadoop架构的数据存储及应用开发上,采用Hadoop对于电信大数据的应用主要包括存储系统(HDFS)、计算系统(Map Reduce)和HBase。该框架的实现为我国高效合理的电信大数据管理提供了一种解决问题的新思路。 相似文献
8.
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大.如何存储、处理大规模数据就成了新的挑战.云计算技术的出现,为这类问题的解决提供了一种思路.云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算.Hadoop是一个用于构建云计算平台的流行的开源... 相似文献
9.
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考. 相似文献
10.
煤矿安全监测监控系统种类繁多、架构不一、信息不共享、功能无互助、监测数据难以得到有效利用,煤矿安全生产缺少可靠的数据支撑。为此,设计了一种基于微服务架构的安全监测系统,将信息管理与自动监测各业务系统统一,构建成一个灵活、稳健、高效的系统平台,以适应大数据分析与挖掘应用。通过基于Hadoop构建的煤矿安全监测大数据平台,实现对海量环境监测数据的分布式存储、选择性抽取和高效计算。通过对生产环境监测数据的集成和深入挖掘,建立机器学习模型,自动识别安全隐患并推荐相应的处理措施,起到对煤矿环境安全综合研判和科学决策的辅助作用,推动实现煤矿安全管理的智能化。 相似文献
11.
《南京师大学报(自然科学版)》2016,(4)
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度. 相似文献
12.
通过对移动存储进行需求分析,提出了一种基于Hadoop的移动云存储系统.移动云存储系统通过手机客户端与服务器端和云端进行数据交换,达到访问云端数据和加密存储数据的目的.本系统实现了基于Android移动手持终端上的文件移动云存储,达到了实时查看和分享数据的目的;对用户信息采用对称加密算法,保证了文件存储过程中用户信息的安全;利用Hadoop云管理平台和AES文件加密算法,保证了在存储在云端文件的安全. 相似文献
13.
云计算环境下煤矿应急管理海量数据存储技术 总被引:3,自引:0,他引:3
随着物联网、无线传感器网络等技术在煤矿应急管理信息化建设中的广泛应用,煤矿大量监测、控制及自动化等实时系统产生的流式数据会形成相当规模的数据集,对煤矿企业现有信息系统构架的海量数据存储及处理性能提出了更大的挑战。为了研究应对此挑战的海量数据存储技术,通过分析煤矿应急管理海量数据的来源及其特点,设计了云计算环境下基于NoSQL的煤矿应急管理海量数据存储方式,并对煤矿应急云平台进行了Hadoop基准测试,同时利用陕西黄陵矿业集团一号矿井某段周期内的瓦斯数据,对煤矿应急云平台和DBMS系统的处理性能进行对比。实验结果表明,基于Hadoop构建的煤矿应急云平台在海量数据存储与处理时均有良好的性能表现。 相似文献
14.
15.
互联网数据的爆炸性增长催生了诸多海量数据存储与大数据处理的新技术,本文对基于Hadoop平台利用R语言进行大数据处理分析的方法进行了探讨。 相似文献
16.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程. 相似文献
17.
大数据解决方案的分布式架构、海量数据存储、内存数据存储等特点给针对Hadoop的电子数据取证带来了巨大的挑战。概述了传统计算机取证的流程、要点以及在大数据取证过程中的局限性。以Hadoop为例,从Hadoop取证生态系统角度介绍了大数据解决方案的架构,分析了大数据取证的数据源、方法、流程、工具等,为调查人员进行大数据调查取证时提供参考。 相似文献
18.
朱义明 《西南科技大学学报》2011,26(2):70-73
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。 相似文献
19.
为提高试飞遥测实时监控的监控服务质量,设计一种实时监控分析报告自动生成系统。系统基于Hadoop的大数据分布式框架设计,以SpringBoot敏捷开发框架搭建,采用流式计算引擎Storm用于实时数据计算、离线计算引擎Spark用于数据统计分析,具备数据实时采集、数据实时计算、数据统计分析、数据分类存储以及监控报告管理核心功能。目前,系统已经在C919大飞机飞行试验过程中使用,满足在飞行结束后3分钟内自动生成本架次全历程监控分析报告,可作为快速评价试飞过程的辅助决策手段,对于缩短试飞周期、提高试飞效率具有重要意义。 相似文献
20.
《郑州大学学报(理学版)》2016,(4)
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率. 相似文献