首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
Hadoop已经成为大数据平台的事实标准,当用户要求它成为全栈平台时,MapReduce为批处理而设计的局限日益显现。文中将SSD引入大数据的内存缓存存储解决方案,阐述了SSD和HDD的混合存储架构;同时,结合高效的计算模型Spark等优化技术,设计了一种基于SSD的高性能Hadoop系统,分别有效地解决大数据计算系统的性能问题和存储空间问题,实验性能评测显示取得了显著效果。  相似文献   

2.
张瑞 《甘肃科技纵横》2014,43(11):29-30
目前针对电信大数据管理应用技术的研究方法与手段众多,但目前主要集中在Hadoop架构的数据存储及应用开发上,采用Hadoop对于电信大数据的应用主要包括存储系统(HDFS)、计算系统(Map Reduce)和HBase。该框架的实现为我国高效合理的电信大数据管理提供了一种解决问题的新思路。  相似文献   

3.
以云计算环境下大数据存储技术为研究对象,首先介绍了云计算环境下主要的两种典型的分布式存储系统,即Googk的GFS和Hadoop的HDFS;对其中的数据存储技术进行了专门分析,从可扩展性和延迟性(如何支持海量小文件的存储)、容错性(在数据丢失时进行数据恢复)和海量数据存储的实时性这3个方面对现有技术进行了评价.在此基础上,提出了分布式文件系统的系统架构.最后给出了研究展望.  相似文献   

4.
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型.  相似文献   

5.
为解决医疗数据的高效存储与处理分析等问题,设计并开发了医疗大数据平台.首先,搭建并部署了Hadoop分布式文件系统,设计基于Tomcat服务器搭建的网站平台.然后,通过编写Hadoop WEB API将WEB服务器与分布式文件系统相结合,设计数据处理效率高的Python脚本程序读取并统计分析医疗数据.平台运行测试结果表...  相似文献   

6.
基于云计算的移动商业智能系统研究   总被引:1,自引:0,他引:1  
针对传统商业智能系统在实时性、交互性和通用性上的不足,通过借鉴云计算强大的计算和存储能力,提出了一种Hadoop与关系数据库相结合的高实时移动商业智能系统解决方案.系统采用Hadoop架构替代数据仓库,实现了海量数据的分布式存储及分析计算,将高实时及高效请求交给处理效率更高的关系数据库,充分利用云计算的虚拟技术提升移动商业智能系统的海量数据处理能力;不仅降低了成本,更使得企业资源得到充分、灵活的应用,提高企业市场快速反应力与竞争力.  相似文献   

7.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

8.
杨霞  吴东伟 《科技资讯》2013,(23):19-20
互联网数据的爆炸性增长催生了诸多海量数据存储与大数据处理的新技术,本文对基于Hadoop平台利用R语言进行大数据处理分析的方法进行了探讨。  相似文献   

9.
基于Hadoop企业私有云存储平台的构建   总被引:1,自引:0,他引:1  
针对企业级用户面临文件和数据量的指数级增长,现有的文件存储设施不能适应业务增长问题,提出基于Hadoop构建企业私有云存储平台,通过采用Linux集群技术、分布式文件系统和云计算框架,实现海量数据存储和高速数据处理业务。比较了私有云存储和传统存储模式,分析了私有云存储技术优势和可行性,提出企业私有云存储架构模型。分析结果表明:企业私有云存储平台适用于关键业务应用、在线事务处理,满足企业对海量数据存储、数据规模易扩展性的要求。  相似文献   

10.
每所高校校园网内成百上千的网站每天产生的Web访问日志量级都以千万计.利用大数据技术对这些海量、实时的数据进行集中搜集和长期存储,并通过后期大数据分析来挖掘这些日志的价值,无论从管理运维角度,还是从信息安全视角都具有实际意义.本文以上海交通大学为例,介绍了利用Hadoop大数据平台,存储并分析校园网内数千网站日志的系统设计和实现.  相似文献   

11.
 石油勘探开发精度的不断提高,促进了低频可控震源、宽频带、宽方位、高密度和高效采集技术的推广应用,石油地震勘探已进入了大数据时代,对质量监控、数据处理、数据安全存储和管理带来了新的挑战。本文分析了石油地震勘探大数据的特点,阐述了中国石化基于Hadoop分布式大数据处理系统研发的π-Frame地震数据处理解释软件平台基本构架,举例说明了该平台在石油地震勘探大数据中的应用,对其发展前景进行展望。  相似文献   

12.
随着张衡一号卫星监测数据的不断增加,目前的HDF5文件存储方式不仅在性能扩展性、读写并发性等方面凸显出劣势,而且无法实现对业务数据的精准时空查询,这给用户带来很大困扰。为解决对海量卫星数据的高效存储和读取,本文分析了HBase数据库和ElasticSearch搜索引擎的优缺点,提出了一种基于二者相结合的卫星大数据存储方案,并搭建了Hadoop架构的大数据试验平台,完成了对张衡一号卫星空间电场ULF频段数据的存储试验和对比测试。结果表明,该方案大大提高了对海量卫星观测数据的读写并发性能,达到当前文件存储方式的几十倍,并实现了对卫星数据的精准定位和快速查询,很好地满足了用户要求。  相似文献   

13.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

14.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

15.
With cloud computing technology becoming more mature, it is essential to combine the big data processing tool Hadoop with the Infrastructure as a Service(Iaa S) cloud platform. In this study, we first propose a new Dynamic Hadoop Cluster on Iaa S(DHCI) architecture, which includes four key modules: monitoring,scheduling, Virtual Machine(VM) management, and VM migration modules. The load of both physical hosts and VMs is collected by the monitoring module and can be used to design resource scheduling and data locality solutions. Second, we present a simple load feedback-based resource scheduling scheme. The resource allocation can be avoided on overburdened physical hosts or the strong scalability of virtual cluster can be achieved by fluctuating the number of VMs. To improve the flexibility, we adopt the separated deployment of the computation and storage VMs in the DHCI architecture, which negatively impacts the data locality. Third, we reuse the method of VM migration and propose a dynamic migration-based data locality scheme using parallel computing entropy. We migrate the computation nodes to different host(s) or rack(s) where the corresponding storage nodes are deployed to satisfy the requirement of data locality. We evaluate our solutions in a realistic scenario based on Open Stack.Substantial experimental results demonstrate the effectiveness of our solutions that contribute to balance the workload and performance improvement, even under heavy-loaded cloud system conditions.  相似文献   

16.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

17.
煤矿安全监测监控系统种类繁多、架构不一、信息不共享、功能无互助、监测数据难以得到有效利用,煤矿安全生产缺少可靠的数据支撑。为此,设计了一种基于微服务架构的安全监测系统,将信息管理与自动监测各业务系统统一,构建成一个灵活、稳健、高效的系统平台,以适应大数据分析与挖掘应用。通过基于Hadoop构建的煤矿安全监测大数据平台,实现对海量环境监测数据的分布式存储、选择性抽取和高效计算。通过对生产环境监测数据的集成和深入挖掘,建立机器学习模型,自动识别安全隐患并推荐相应的处理措施,起到对煤矿环境安全综合研判和科学决策的辅助作用,推动实现煤矿安全管理的智能化。  相似文献   

18.
The large scale and distribution of cloud computing storage have become the major challenges in cloud forensics for file extraction. Current disk forensic methods do not adapt to cloud computing well and the forensic research on distributed file system is inadequate. To address the forensic problems, this paper uses the Hadoop distributed file system (HDFS) as a case study and proposes a forensic method for efficient file extraction based on three-level (3L) mapping. First, HDFS is analyzed from overall architecture to local file system. Second, the 3L mapping of an HDFS file from HDFS namespace to data blocks on local file system is established and a recovery method for deleted files based on 3L mapping is presented. Third, a multi-node Hadoop framework via Xen virtualization platform is set up to test the performance of the method. The results indicate that the proposed method could succeed in efficient location of large files stored across data nodes, make selective image of disk data and get high recovery rate of deleted files.  相似文献   

19.
分析了现有存储技术的特点及其不足,描述了图书馆数字资源存储的需求,介绍了云存储的概念及其优点,提出了一个基于Hadoop HDFS的图书馆云存储架构方案。  相似文献   

20.
Cloud monitoring is of a source of big data that are constantly produced from traces of infrastructures,platforms, and applications. Analysis of monitoring data delivers insights of the system's workload and usage pattern and ensures workloads are operating at optimum levels. The analysis process involves data query and extraction, data analysis, and result visualization. Since the volume of monitoring data is big, these operations require a scalable and reliable architecture to extract, aggregate, and analyze data in an arbitrary range of granularity. Ultimately, the results of analysis become the knowledge of the system and should be shared and communicated. This paper presents our cloud service architecture that explores a search cluster for data indexing and query. We develop REST APIs that the data can be accessed by different analysis modules. This architecture enables extensions to integrate with software frameworks of both batch processing(such as Hadoop) and stream processing(such as Spark) of big data. The analysis results are structured in Semantic Media Wiki pages in the context of the monitoring data source and the analysis process. This cloud architecture is empirically assessed to evaluate its responsiveness when processing a large set of data records under node failures.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号