首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

2.
根据ERF数据的特点结合分布式框架Hadoop针对海量数据的计算优势,改进了网络数据的解析模式和数据存储模式,完成了ERF网络数据自动上传。根据XML文件解析多种类型的网络数据、HBase存储数据和HBase数据导入与数据查询的优化等一系列网络数据自动化处理工作。提出了一种新的MapReduce解析二进制数据的算法,该方案有效的解决了MapReduce读取和解析二进制数据的问题,在此基础上实现的海量网络数据处理系统,解析效率较高,数据库存储和查询数据的速度较快,系统自动化运行且稳定性强,有良好的应用前景。  相似文献   

3.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

4.
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考.  相似文献   

5.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

6.
存储过程是数据库管理系统的一个重要特性,它是标准结构化查询语言(Structured Query Language,SQL)的一个扩展.OceanBase是一个新型的支持海量数据处理的分布式数据库系统,但现有OceanBase的开源版本不支持存储过程功能,影响了该系统在企业和机构中的推广和应用.本文在深度分析存储过程原理以及OceanBase查询处理策略的基础上,设计并实现了支持PL/SQL(Procedural Language/SQL)的存储过程机制.  相似文献   

7.
基于HBase的分布式空间数据库技术   总被引:1,自引:0,他引:1  
针对在大型地理信息系统(GIS)中, 需要对海量矢量据和栅格数据进行存储并对高并发的用户查询请求提供高效响应, 传统的设计方案难以满足需求的问题, 提出一种使用基于内存存储的分布式数据库HBase存储空间数据, 并设计基于GeoHash的分布式空间索引, 实现了矢量空间数据与栅格空间数据的分布式存储与快速查询. 实验表明, 该方法提升了海量空间数据的查询速度.  相似文献   

8.
为了实现对海量RDF数据的高效查询,研究RDF数据在分布式数据库HBase中的存储方法。基于MapReduce设计海量RDF数据的两阶段查询策略,将查询分为SPARQL预处理阶段与分布式查询执行阶段。SPARQL预处理阶段设计实现基于SPARQL变量关联度的查询划分算法JOVR,通过计算SPARQL查询语句中变量的关联度确定连接变量的连接顺序,根据连接变量将SPARQL子句连接操作划分到最小数量的MapReduce任务中;分布式查询执行阶段执行SPARQL预处理阶段划分的MapReduce任务,实现对海量RDF数据的并行查询。采用LUBM标准测试数据集对查询策略予以验证。研究结果表明:JOVR算法能够高效地实现对海量RDF数据的查询,并具有较强的稳定性与可扩展性。  相似文献   

9.
随着张衡一号卫星监测数据的不断增加,目前的HDF5文件存储方式不仅在性能扩展性、读写并发性等方面凸显出劣势,而且无法实现对业务数据的精准时空查询,这给用户带来很大困扰。为解决对海量卫星数据的高效存储和读取,本文分析了HBase数据库和ElasticSearch搜索引擎的优缺点,提出了一种基于二者相结合的卫星大数据存储方案,并搭建了Hadoop架构的大数据试验平台,完成了对张衡一号卫星空间电场ULF频段数据的存储试验和对比测试。结果表明,该方案大大提高了对海量卫星观测数据的读写并发性能,达到当前文件存储方式的几十倍,并实现了对卫星数据的精准定位和快速查询,很好地满足了用户要求。  相似文献   

10.
基于云计算的移动商业智能系统研究   总被引:1,自引:0,他引:1  
针对传统商业智能系统在实时性、交互性和通用性上的不足,通过借鉴云计算强大的计算和存储能力,提出了一种Hadoop与关系数据库相结合的高实时移动商业智能系统解决方案.系统采用Hadoop架构替代数据仓库,实现了海量数据的分布式存储及分析计算,将高实时及高效请求交给处理效率更高的关系数据库,充分利用云计算的虚拟技术提升移动商业智能系统的海量数据处理能力;不仅降低了成本,更使得企业资源得到充分、灵活的应用,提高企业市场快速反应力与竞争力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号