首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 468 毫秒
1.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

2.
HDFS设计之初只考虑到如何更好地处理大文件,并没有针对海量小文件进行优化,因此,当使用HDFS管理海量指纹数据小文件时会出现Name Node内存负载过重、上传及查询性能过低等问题.采用Sequence File序列化技术进行小文件的合并,并且对于小文件合并、元数据存储、缓存策略等进行了针对性优化.实验证明,该优化方案可以有效地解决Name Node内存负载过重的问题,并且海量指纹数据小文件的上传和查询性能得到了提高.  相似文献   

3.
随着网络数据、生产数据的大幅增长,数据存储和查询面临着严峻的挑战.数据划分技术可将海量数据分布存储在多台机器中,既能解决单机存储容量问题,也能通过划分区间来缩小数据查询范围.为此,研究了海量数据背景下数据划分存储和查询的方法,设计了将海量数据按角度和距离值计算其所属数据区间,并分布存储到该区间对应的机器文件中,从而实现了大数据量的文件以小数据量的文件存储,使得查询数据时可以先通过索引表找到所属的数据区间其所在文件,再进行查询即可,这样缩小了数据查询范围,而且还可以通过多机器协同查询,加快查询速度.对采用以上方法划分存储的数据进行了Top-K查询,验证了方法的有效性.  相似文献   

4.
马秀平 《科技信息》2010,(22):I0189-I0190
随着Web信息呈指数级增加,目前存储模式已难以适应大规模RDF数据高效存储的需求。本文通过对语义万维网结构以及RDF语义文件存储和查询技术的研究,分析了海量语义数据管理的研究领域和现状,提出了基于RDF的海量数据管理框架。该框架旨在实现对海量数据的管理,以解决RDF数据管理中存在存储设计难度大,查询处理复杂且效率低,查询结果排序困难的问题。  相似文献   

5.
本文通过对现有海量数据现状的研究,找出了影响海量数据库查询的瓶颈所在.并结合电信、银行等大型企业的实际硬件背景,提出了一种基于数据库文件分段的海量数据库查询优化策略,并对其进行了实现.实验结果表明此海量数据库查询的优化方案,能明显的改进海量数据库的查询性能,具有较高的现实意义.  相似文献   

6.
廖海生 《河南科学》2014,(12):2505-2510
随着大数据存储需求的不断扩大,网络存储技术面临如何存储并管理海量数据的问题.通过对现有各种大数据存储模型进行了对比分析,针对现有存储模型存储的局限性和大数据存储的特点,提出了一种基于数据特征的面向对象存储思想.采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型.在仿真环境中,对该模型的分类关键模块与非结构化数据存储性能进行了测试与分析,实验结果表明该模型分类模块误差较小,读写效率较高,而且随着数据的增大,非结构化存储性能保持稳定.  相似文献   

7.
高顽存性存储网格的构架与性能分析   总被引:1,自引:1,他引:0  
为提高海量数据存储的可靠性,结合RS(Reed-Solomon)算法和网格技术提出了高可靠性存储网格的整体构架,设计并实现了RS数据存取中间件,理论上证明了系统的数据存储可靠性。通过性能测试,系统具有极高的读写性能。该系统的实现可很好地解决海量数据存储的可靠性问题。  相似文献   

8.
为了对云端海量的数据进行高效的管理以及精准快速的查询,尤其是针对多维数据的范围查询问题,提出了一种新型的分布式多维数据索引方案BSCBF-index。实验证实:该方案能够带来较低的用户访问延迟,从而可以大大提高用户的查询体验。  相似文献   

9.
针对由于磁盘I/O的性能瓶颈,基于磁盘的分布式文件系统无法为海量小文件存储提供高数据吞吐率和低访问延迟这一问题,设计并实现了一个基于虚拟内存的分布式文件系统——CarrierFS,它将数据存储于虚拟内存中,利用磁盘备份数据.在实现元数据和数据可扩展存储的基础上,CarrierFS设计了监管者模块来保证系统的可靠性.对CarrierFS和HDFS进行了性能测试,实验结果表明,CarrierFS对大文件和小文件的读写速度都具有明显的性能优势.当文件大小为256 Mbyte时,CarrierFS的写入速度大约是HDFS的1.30倍,读取速度大约是HDFS的1.95倍.当文件大小为32 Kbyte时,CarrierFS的写入速度大约是HDFS的3.0倍,读取速度大约是HDFS的3.4倍.  相似文献   

10.
基于HBase的分布式空间数据库技术   总被引:1,自引:0,他引:1  
针对在大型地理信息系统(GIS)中, 需要对海量矢量据和栅格数据进行存储并对高并发的用户查询请求提供高效响应, 传统的设计方案难以满足需求的问题, 提出一种使用基于内存存储的分布式数据库HBase存储空间数据, 并设计基于GeoHash的分布式空间索引, 实现了矢量空间数据与栅格空间数据的分布式存储与快速查询. 实验表明, 该方法提升了海量空间数据的查询速度.  相似文献   

11.
云环境中基于金字塔模型的影像数据存储方法   总被引:1,自引:0,他引:1  
随着卫星遥感获取技术的发展,影像数据量呈几何式增长,传统数据存储技术已经无法适应海量影像数据的处理要求.结合金字塔模型和MapReduce架构提出了一种适用于云计算环境的分布式并行存储方法—BMLStorage(storage based on MapReduce and local file system),该方法基于金字塔模型对影像数据进行分层分块处理,并对所得瓦片重新编码.定义了一种新的存储规则,使得所有瓦片可以按照此规则利用Hadoop中的MapReduce框架实现并行存储.实验表明,该方法与现有方法相比,在海量影像数据存储性能方面有一定的提高.  相似文献   

12.
The rapid growth of structured data has presented new technological challenges in the research fields of big data and relational database. In this paper, we present an efficient system for managing and analyzing PB level structured data called Banian. Banian overcomes the storage structure limitation of relational database and effectively integrates interactive query with large-scale storage management. It provides a uniform query interface for cross-platform datasets and thus shows favorable compatibility and scalability. Banian's system architecture mainly includes three layers:(1) a storage layer using HDFS for the distributed storage of massive data;(2) a scheduling and execution layer employing the splitting and scheduling technology of parallel database; and(3)an application layer providing a cross-platform query interface and supporting standard SQL. We evaluate Banian using PB level Internet data and the TPC-H benchmark. The results show that when compared with Hive, Banian improves the query performance to a maximum of 30 times and achieves better scalability and concurrency.  相似文献   

13.
分布式存储是解决海量数据存储的重要手段, 而多用户环境下密钥的分发和更新是分布式安全存储的重要问题. 传统方法大多采用密钥分发中心(key distribution enter, KDC)进行控制, 但随着用户数的增多, 密钥中心的工作量增大. 利用Chebyshev多项式的周期性特性和逻辑密钥树(logical key hierarchy, LKH)的层次密钥结构, 设计一种分布式文件存储中基于文件共享组的周期性密钥更新方案(cyclic key update scheme, CKUS). 该方案的特点是密钥的更新和传递无需借助公钥密码体制, 而直接通过文件所有者进行组播; 文件共享者采用本地计算, 提高了计算效率. 同时, 利用Chebyshev多项式的周期性特点, 使每个文件共享者自适应密钥更新, 有效降低密钥更新时的通信量, 减少用户节点的密钥存储量.  相似文献   

14.
This paper designs and develops a framework on a distributed computing platform for massive multi-source spatial data using a column-oriented database(HBase).This platform consists of four layers including ETL(extraction transformation loading) tier,data processing tier,data storage tier and data display tier,achieving long-term store,real-time analysis and inquiry for massive data.Finally,a real dataset cluster is simulated,which are made up of 39 nodes including 2 master nodes and 37 data nodes,and performing function tests of data importing module and real-time query module,and performance tests of HDFS's I/O,the MapReduce cluster,batch-loading and real-time query of massive data.The test results indicate that this platform achieves high performance in terms of response time and linear scalability.  相似文献   

15.
针对分布式并行环境下海量空间数据的快速显示和浏览问题,提出一种基于分层、分专题的海量空间数据金字塔模型及基于数据库存储方案的瓦片数据快速分发方法.对比分析了瓦片数据在文件式管理和数据库管理两种模式下的存储机制和响应流程,并以时间跨度59年的沙尘暴观测数据为例,验证了该方法不仅能有效地组织管理海量空间数据,实现高效数据互操作,而且在多用户并发访问时,能快速响应客户端请求.  相似文献   

16.
Cloud storage is widely used in massive data outsourcing, but how to efficiently query encrypted multidimensional data stored in an untrusted cloud environment remains a research challenge. We propose a high performance and privacy-preserving query (pLSH-PPQ) scheme over encrypted multidimensional data to address this challenge. In our scheme, for a given query, the proxy server will return K top similar data object identifiers. An enhanced Ciphertext-Policy Attribute-Based Encryption (CP-ABE) policy is used to control access to the search results. Therefore, only the requester with the permission attribute can obtain correct secret keys to decrypt the data. Security analysis proves that the pLSH-PPQ scheme achieves data confidentiality and reserves the data owner’s privacy in a semi-trusted cloud. In addition, evaluations demonstrate that the pLSH-PPQ scheme can significantly reduce response time and provide high search efficiency without compromising on search quality.  相似文献   

17.
Hadoop利用统一的备份机制来确保数据的可用性和容错性.然而对于重要的文件块,只能通过修改配置文件来设置副本数量.通过分析电信业数据仓库文件的访问情况,提出文件备份与存放动态调整算法(BPDA)来提高数据局部性,以减少数据传输带来的I/O和网络消耗,提高查询效率.运用多副本一致性哈希算法,概率采样和竞争力弱化算法,得到每一个文件的最佳备份数和备份位置.实验结果验证了该算法可以提高查询关联效率.  相似文献   

18.
海量平面点集Voronoi图的构造算法   总被引:4,自引:1,他引:3  
进一步发展平面点集Voronoi图的增量式外置算法.在对"海量"点组成的平面点集进行Voronoi划分时,设计"硬盘数据文件——内存结构体数组"之间动态的数据交互方案,避开计算机内存的限制,有效实现了数十万Voronoi晶胞集合体的构造,存储Voronoi图几何信息的数据最后以文本文件的形式输出,方便Voronoi图在工程实际中的应用与二次开发.  相似文献   

19.
针对分布式WebGIS中海量数据和有限带宽的网络资源之间的矛盾日益突出,研究分析了当前WebGIS两种体系结构的优缺点,引入多Agent技术进行合理分配协调任务,提出一种基于智能多Agent的混合式的WebGIS体系结构模型.经过对海量网络数据查询特点的分析,对需要查询的数据进行过滤和精炼,提出一种在客户端使用代价函数来优化动态矢量数据的查询方法.实践证明,该体系结构模型能够有效地提高查询速度,节省带宽资源,保持全局网络负载的良好性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号