首页 | 本学科首页   官方微博 | 高级检索  
     检索      

开源软件中的大数据管理技术
引用本文:江天,乔嘉林,黄向东,王建民.开源软件中的大数据管理技术[J].科技导报(北京),2020,38(3):103-114.
作者姓名:江天  乔嘉林  黄向东  王建民
作者单位:清华大学软件学院, 大数据研究中心;大数据系统软件国家工程实验室, 北京 100084
基金项目:国家重点研发计划项目(2016YFB0501504);国家自然科学基金项目(U1509213,61802224)
摘    要: 随着谷歌文件系统和宽表结构为代表的技术打破依赖关系数据库管理海量数据的限制,以Apache Hadoop为代表的开源大数据管理系统软件新技术与系统不断涌现,并快速成熟应用。针对Apache开源社区中面向在线事务处理和在线分析处理场景的大数据管理软件,介绍了大数据管理中的数据存储、数据分区、副本机制、分布式协议等,并比较分析了分布式文件系统、键值库、时序数据库等典型分布式数据管理系统的优缺点。

关 键 词:大数据管理  开源软件  分布式系统  
收稿时间:2019-11-08

Big data technologies in open source software: A survey
JIANG Tian,QIAO Jialin,HUANG Xiangdong,WANG Jianmin.Big data technologies in open source software: A survey[J].Science & Technology Review,2020,38(3):103-114.
Authors:JIANG Tian  QIAO Jialin  HUANG Xiangdong  WANG Jianmin
Institution:School of Software, Research Center for Big Data, Tsinghua University;National Engineering Laboratory for Big Data Software, Beijing 100084, China
Abstract:The Google's GFS and Big Table have broken the limitations of the technology of having to use the relational databases to manage the big data in the past decade. A number of open source big data management systems, such as the Apache Hadoop, carry the technology further by developing more matured technologies and applications. This paper reviews the big data management systems in addressing the usage scenarios of the OLTP and the OLAP based on the Apache software, and the state of art of the data storage engine, the data partition, the data replication, the distributed system protocol, together with a comparison of the pros and the cons of the current distributed file system, the key value store, and the time series database.
Keywords:big data management  open source software  distributed system  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《科技导报(北京)》浏览原始摘要信息
点击此处可从《科技导报(北京)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号