首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
针对目前校园海量数据存储面临的服务器资源利用率低、管理维护成本高等问题,在云存储技术的基础上提出了校园云存储服务的设计,并进行了实验.为减少读写速率的损失,系统通过调用HDFS(Hadoop distributed filesystem)的API接口方式实现数据存储及对集群的状态监控和管理.实验表明:传输文件的大小和集群中数据节点的个数对云存储服务的数据读写速率的影响较大;HDFS并行传输大量小文件的速率相对较低.  相似文献   

2.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

3.
在现有HDFS文件系统的基础上,对于某些关键问题与算法进行了改进,采用JSP等技术结合Hadoop API设计并开发了一个基于Hadoop的云安全存储系统。该系统可以实现文件的上传、下载和共享等功能,用户可以通过Web网页进行相应的操作。  相似文献   

4.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

5.
针对由于磁盘I/O的性能瓶颈,基于磁盘的分布式文件系统无法为海量小文件存储提供高数据吞吐率和低访问延迟这一问题,设计并实现了一个基于虚拟内存的分布式文件系统——CarrierFS,它将数据存储于虚拟内存中,利用磁盘备份数据.在实现元数据和数据可扩展存储的基础上,CarrierFS设计了监管者模块来保证系统的可靠性.对CarrierFS和HDFS进行了性能测试,实验结果表明,CarrierFS对大文件和小文件的读写速度都具有明显的性能优势.当文件大小为256 Mbyte时,CarrierFS的写入速度大约是HDFS的1.30倍,读取速度大约是HDFS的1.95倍.当文件大小为32 Kbyte时,CarrierFS的写入速度大约是HDFS的3.0倍,读取速度大约是HDFS的3.4倍.  相似文献   

6.
数据负载均衡对Hadoop分布式文件系统(HDFS)性能有着重要的影响,针对HDFS中默认的数据负载均衡方法存在的效率低和缺乏灵活性的不足,文中提出了一种新的动态负载均衡方法,即通过控制变量来动态分配网络带宽以达到数据负载均衡.在此基础上建立了基于控制变量的数据负载均衡数学模型.实验结果表明,文中提出的方法既能保证HDFS的数据访问性能,又能提高集群加入新节点时的数据负载均衡效率.  相似文献   

7.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

8.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

9.
Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。  相似文献   

10.
针对HDFS采用的完全复制存储方案会占据较多的存储空间,且对数据的恶意窃取和攻击缺少防御措施,提出了基于分片聚合编码的HDFS数据存储策略,其中采用STAR码对数据进行编码处理,产生编码数据片,然后通过聚合操作将每个数据段中位置相同的数据片聚合组成一个存储数据块,实现了HDFS文件的存储.模拟实验表明基于分片聚合编码的文件存储策略相比原HDFS存储方案在数据分布方面更安全有效.  相似文献   

11.
The large scale and distribution of cloud computing storage have become the major challenges in cloud forensics for file extraction. Current disk forensic methods do not adapt to cloud computing well and the forensic research on distributed file system is inadequate. To address the forensic problems, this paper uses the Hadoop distributed file system (HDFS) as a case study and proposes a forensic method for efficient file extraction based on three-level (3L) mapping. First, HDFS is analyzed from overall architecture to local file system. Second, the 3L mapping of an HDFS file from HDFS namespace to data blocks on local file system is established and a recovery method for deleted files based on 3L mapping is presented. Third, a multi-node Hadoop framework via Xen virtualization platform is set up to test the performance of the method. The results indicate that the proposed method could succeed in efficient location of large files stored across data nodes, make selective image of disk data and get high recovery rate of deleted files.  相似文献   

12.
将云计算技术应用于数据备份领域,  设计并实现了基于分布式文件系统(HDFS)的云数据备份系统. 该系统利用云存储技术, 应用已有的廉价计算机设备构建数据备份集群, 解决了用户数据备份/恢复业务的需要, 通过用户分群管理、 小文件合并上传、 恢复优先等策略进一步提高了系统性能. 实验结果表明,  云备份系统在安全性、 可扩展性、 经济性及可靠性上均具有一定的优势.  相似文献   

13.
 为充分利用移动搜索和政府网站的特点, 发挥Hadoop 处理大数据的优势, 设计开发了日志挖掘和个性化定制系统。利用Flume 和HDFS 实现了海量日志的汇总和存储, 为日志挖掘提供了数据源和调用接口;采用MapReduce 实现了对日志的高效分析, 利用搜索结果网页的标签和导航, 建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型, 使用聚类分析中的K-means算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离, 判断用户对该网页是否感兴趣, 据此调整搜索结果的排序, 实现个性化搜索和推送功能。  相似文献   

14.
一种提高云存储中小文件存储效率的方案   总被引:3,自引:0,他引:3  
针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并.实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了小文件的存储效率.  相似文献   

15.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

16.
基于PKI的HDFS认证及安全传输机制研究   总被引:1,自引:0,他引:1  
为解决Hadoop核心子项目Hadoop分布式文件系统(HDFS)文件服务过程中存在的认证及安全传输问题,对当前所采用的Kerberos方案进行了详细的分析,针对其在安全性和效率性方面存在的缺陷,提出将基于PKI的数字证书认证技术及基于数字信封的AES对称加密技术应用到HDFS的安全机制中。分析表明,该安全机制与Kerberos相比,能够为HDFS文件服务提供更安全、更高效的解决方案。  相似文献   

17.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号