首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.  相似文献   

2.
朱光耀 《科技资讯》2012,(28):13-13
论文将通过具体设计,提出一个行之有效的处理分析Hadoop中海量小文件的应用方法。  相似文献   

3.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

4.
Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。  相似文献   

5.
HDFS设计之初只考虑到如何更好地处理大文件,并没有针对海量小文件进行优化,因此,当使用HDFS管理海量指纹数据小文件时会出现Name Node内存负载过重、上传及查询性能过低等问题.采用Sequence File序列化技术进行小文件的合并,并且对于小文件合并、元数据存储、缓存策略等进行了针对性优化.实验证明,该优化方案可以有效地解决Name Node内存负载过重的问题,并且海量指纹数据小文件的上传和查询性能得到了提高.  相似文献   

6.
为了加快海量图像检索速度,提出基于Hadoop分布式平台的海量图像检索系统。首先提取待检索图像的特征,然后通过Hadoop分布式平台下图像特征匹配,根据匹配结果得到图像检索结果,最后通过仿真实验分析了图像检索速度和效率,结果表明,该文模型大幅度提升了海量图像检索速度,比对比系统获得更优的图像检索效率,具有更高的实际实用价值。  相似文献   

7.
针对卫星海量测控数据以时间区间检索、结果按时间排序的需求,提出了基于数据库时间分区表与索引组织表(IOT)的存储和查询方法。时间分区表采用将数据存放到多个物理表空间,在数据查询时不需每次扫描整张表,检索时间明显缩短,且查询响应时间不会随着数据量的增长而增加;索引组织表是将数据直接存放在索引中,降低了存储空间的占用,以损失较小的写入效率为代价。通过对某卫星实验和分析,证明了方法的有效性和正确性,提高了数据存储和查询的效率。  相似文献   

8.
随着存储技术的发展,海量存储已经越来越普遍。如何管理并使用好这些海量信息,成为海量存储面临的一个新的问题。鉴于数据都有自己的生命周期,引入ILM(信息生命周期管理)的海量存储模式,试图找寻能够解决海量存储中降低成本,保持数据完整性,提高数据使用率的一种方式。  相似文献   

9.
随着信息技术的快速发展,高校在科学研究中的数据呈几何倍增长.为了整合教育资源、节约教育成本,本文利用Hadoop构建一个高效、稳定、可扩展的云存储集群,从而解决高校在教育教学过程中资源浪费和存储空间不足的问题.  相似文献   

10.
在现代摄影技术快速发展的今天,高速摄像机为数字电视、高清电视的发展奠定基础。但是在实际的应用过程中,高速摄像机带来的海量信息存储问题成为了影响这一技术发展与应用的关键。近年来,航拍技术应用、外拍信息储存等成为了摄影摄像行业面临的首要问题。本文就移动海量图像信息储存的解决与应用进行了简要的论述,为我国高清影视行业的发展提供更多的信息资料。  相似文献   

11.
基于Hadoop企业私有云存储平台的构建   总被引:1,自引:0,他引:1  
针对企业级用户面临文件和数据量的指数级增长,现有的文件存储设施不能适应业务增长问题,提出基于Hadoop构建企业私有云存储平台,通过采用Linux集群技术、分布式文件系统和云计算框架,实现海量数据存储和高速数据处理业务。比较了私有云存储和传统存储模式,分析了私有云存储技术优势和可行性,提出企业私有云存储架构模型。分析结果表明:企业私有云存储平台适用于关键业务应用、在线事务处理,满足企业对海量数据存储、数据规模易扩展性的要求。  相似文献   

12.
龚发芽 《科技资讯》2014,(14):31-32
在海量影像地图的应用中,数据的存储、更新和利用都是比较难以解决的问题,本文以全国特征点数据为基础,自动挖掘出全国范围的重要位置区域,并进行结构化处理,然后以此数据为依据,提供任意位置在各种比例尺下的地图重要性判断方法,根据此方法,可选择性的存储和更新重要影像数据,达到数据缩减存储、快速更新和高效访问的目的。  相似文献   

13.
针对传统文件存储方法速度慢、实时性差等问题,给出一种基于LabVIEW的采集数据的快速文件存储方法.该方法采用"生产者-消费者"双消费者模式,将数据采集与数据处理同步进行,即,将数据处理中的文件存储、计算、显示等同步执行,使文件存储处理可连续执行存储操作,且选用TDMS文件存储格式来加快文件存储速度.为测试本方法的有效性,搭建了一套集数据采集,USB数据传输,波形显示及数据存储功能于一体的软硬件测试平台.结果表明,对相同时间采样数据的文件存储,比传统方法耗时更少,且采样时间越长,存储时间越短.  相似文献   

14.
目前靶场光学测量中使用大面阵高帧频数字相机,原有的同步存储系统无法满足要求,设计了基于海量内存的超高速异步数字视频存储系统。使用PC平台的硬件,先将数字视频存储至内存中,待数据传输结束后再将内存中的数据写入存储介质,避开了同步存储的实时写入存储介质的速率瓶颈,避免了因为写入速率不稳导致的丢帧错帧的问题。在实际使用中可实现速率为800MB/s的超高速存储。  相似文献   

15.
基于虚拟仪器技术的海量数据存储记录仪   总被引:5,自引:2,他引:5  
记录仪是重要的二次仪表,用于工业自动化监控系统,也可以用于高速现场采集为后续分析准备数据.虚拟式海量数据存储记录仪是在克服传统记录仪缺点的基础上,结合虚拟仪器技术,开发出来的一种新型的记录仪.作者对系统原理、硬件结构及软件设计进行了详细的论述,并给出了一个应用实例.该仪器具有成本低,易携带,操作方便的优点,满足了大多数行业对记录仪的需要.  相似文献   

16.
Hadoop分布式文件系统(hadoop distributed file system,HDFS)因其稳定高效、低成本等优势,已被很多大型企业广泛使用.针对HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立H-B+树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标.实现中采用缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节点的内存负载.实验结果表明,基于混合索引的小文件存储策略能有效提高小文件访问效率,并显著降低元数据节点内存开销.  相似文献   

17.
在智能电网环境下,录波数据具有广域、全景、海量和可靠的特征,传统的存储硬件采用磁盘阵列,数据库管理软件采用关系数据库系统的方法由于系统扩展性差、成本高、可靠性低,难以适应要求。本文提出了一种基于Hadoop的录波数据分布式存储与访问的新方法,并将其与传统方法的访问速度进行了对比,证明了新方法的高效性。  相似文献   

18.
新闻数据的指数级增长对新闻的高效存储和管理提出了重大挑战。为解决存储与计算分离模式下新闻文本的存储与读访问瓶颈问题,提出了一种基于数据编排平台Alluxio的新闻文本存储优化方法。首先,利用Alluxio对不同存储系统中的新闻文本进行缓存并提供统一命名空间,加速了计算应用的数据访问。其次,为了解决新闻文本存储在远程场景下所面临的读访问性能瓶颈问题,对新闻文本进行了基于目录聚合的合并,并利用最小完美哈希算法对新闻文本元数据构建索引,实现了新闻文本的快速检索。  相似文献   

19.
利用存储虚拟化技术应对数字图书馆海量存储   总被引:1,自引:0,他引:1  
数字资源存储已经在数字图书馆中占有极其重要的位置,是数字图书馆的核心,然而异构的存储架构既浪费了存储资源又增加了管理的复杂性。存储虚拟化技术通过整合现有多个异构存储网络形成一个虚拟存储池,从而使存储资源的利用率大幅提高。  相似文献   

20.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号