首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
分布式数据库是数据库技术与网络技术相结合的产物,是数据库领域中一个重要的分支。随着传统的数据库技术日趋成熟,计算机网络技术的飞速发展和应用范围的扩大,以分布式为主要特征的数据库系统的研究受到人们的关注。研究了基于分布式数据库的查询优化处理算法,并在文章结尾谈到了关于SQL语句的优化。  相似文献   

2.
基于分布式数据库系统的一种查询优化算法   总被引:4,自引:0,他引:4  
分布式数据库系统由于数据的物理分布和冗余使得分布式查询处理增加了难度和复杂度,使得分布式数据库系统的查询优化较集中式数据库系统更为重要.介绍分布式数据库系统的特点和分布式查询优化及一种新的查询算法:基于语义信息的分布查询处理.  相似文献   

3.
石小艳 《科技信息》2010,(30):I0244-I0245
信息资源的大量共享促使分布式数据库的集成技术迅速发展,查询优化是分布式数据库中的关键问题,现代的查询优化策略,取得了一定的效果,但还需要进一步完善,因此,分布式数据库的查询优化问题一直吸引着众多的研究者去寻求解决它的新途径。  相似文献   

4.
一种基于事先测试的分布式数据库优化联接查询技术   总被引:3,自引:0,他引:3  
在分布式数据库系统中,查询优化是一极其重要的问题,其中联接查询的优化因其应用的广泛性而显得尤为关键.本文介绍了在分布式数据库系统中对联接查询的一般处理方法,详细论述了笔者提出的一种在分布式数据库中基于事先测试的优化联接查询技术,并进行了分析与总结.  相似文献   

5.
随着维度和数据量的不断增长,已有的轮廓查询方法已无法为用户提供更好的查询支持.本文采用并行处理框架MapReduce 结合k-支配轮廓查询算法来解决此类查询问题.在对输入的数据集进行预排序的基础上,提出了基于MapReduce 的单轮扫描算法和双轮扫描算法,通过在不同维度、数据分布、节点个数等方面的实验测试及对比,验证了算法的有效性.  相似文献   

6.
分布式数据库系统是数据库技术与计算机网络技术相结合的产物,分布式数据库系统由于数据的分布和冗余使得分布式查询处理增加了许多新的内容和复杂性,不同的查询处理方法,其查询的费用和并行处理程度是大不一样的,因此,分布式数据库系统的查询优化较集中式数据库系统更重要.根据分布式数据库系统的特点,简要介绍分布式查询优化的目标、策略及查询优化的基本方法.  相似文献   

7.
黄月华  周萍 《中国西部科技》2007,31(8):86-87,102
分布式查询算法的核心部分是全局查询优化算法,将查询请求合理地优化分解为子查询任务,并尽量使子查询任务并行执行。分布式查询的优化需要权衡网络流量、响应时间、服务器负载、算法复杂性等多种因素。本着减少节点之间的数据传输量的目的,本文提出一个复杂度和延迟时间之间进行衡量的全局优化算法。本文就连接查询和复合查询进行了详细的分析,最后提出了一种基于半连接的查询优化算法,并分析了该改进算法的优缺点。  相似文献   

8.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势.  相似文献   

9.
分布式查询算法的核心部分是全局查询优化算法,将查询请求合理地优化分解为子查询任务,并尽量使子查询任务并行执行。分布式查询的优化需要权衡网络流量、响应时间、服务器负载、算法复杂性等多种因素。本着减少节点之间的数据传输量的目的,本文提出一个复杂度和延迟时间之间进行衡量的全局优化算法。本文就连接查询和复合查询进行了详细的分析,最后提出了一种基于半连接的查询优化算法,并分析了该改进算法的优缺点。  相似文献   

10.
基于混合遗传算法的关系型数据库查询优化   总被引:2,自引:0,他引:2  
分析了关系型数据库的查询优化问题,针对多连接查询提出将遗传算法和爬山法结合,从而构造了关系型数据库多连接查询优化问题的混合遗传算法,并进行了实验计算.结果表明,用混合遗传算法解决多连接查询优化问题,可以发挥遗传算法和爬山法的不同优势,从而得到较满意的查询优化性能.  相似文献   

11.
当前的大规模数据分析通常在MapReduce框架下执行查询。由于MapReduce框架本身的冗余性以及查询之间的重叠性,复用已有查询的结果可以大幅提高查询的执行效率。复用查询的结果需要对其进行存储和匹配管理,产生高昂的系统开销,抵消复用的部分效果。本文针对目前先进的查询结果复用系统ReStore在管理查询结果和匹配中存在的效率低下的问题,提出森林结构的Job存储管理技术和与之相适应的匹配算法,提高查询的匹配效率,减少系统的开销。为了使系统能够充分复用已执行查询的结果,本文提出对多个查询进行预处理的方案,通过改变各查询进入Pig编译器进行编译的顺序,从而改变Job的执行顺序,使得加载相同数据集的Job同时执行,减少与存储库进行匹配的次数。实验表明:在构建存储结构与匹配已有结果过程中,本文提出的方法与ReStore相比,节约16.3%的时间开销,伸缩性也更好。  相似文献   

12.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

13.
根据ERF数据的特点结合分布式框架Hadoop针对海量数据的计算优势,改进了网络数据的解析模式和数据存储模式,完成了ERF网络数据自动上传。根据XML文件解析多种类型的网络数据、HBase存储数据和HBase数据导入与数据查询的优化等一系列网络数据自动化处理工作。提出了一种新的MapReduce解析二进制数据的算法,该方案有效的解决了MapReduce读取和解析二进制数据的问题,在此基础上实现的海量网络数据处理系统,解析效率较高,数据库存储和查询数据的速度较快,系统自动化运行且稳定性强,有良好的应用前景。  相似文献   

14.
在传统的并行编程模型中,对大量数据如何进行并行计算、如何为每个任务分发数据、如何处理单点故障等问题,都需要大量的程序分析和设计,这些问题的有效处理都需要程序员显式地使用有关技术来解决.对于程序员来说,这是一项具有极大困难的工作,使得原本简单的运算反而变得非常复杂,这些问题的存在也在一定程度上制约了并行程序的普及.而MapReduce计算模型能有效地解决上述问题,阐述了Google的MapReduce计算模型的实现机制,并通过实例描述了该模型的执行过程.  相似文献   

15.
Current literature on parallel bulk-loading of R-tree index has the disadvantage that the quality of produced spatial index decrease considerably as the parallelism increases.To solve this problem,a novel method of bulk-loading spatial data using the popular MapReduce framework is proposed.MapReduce combines Hilbert curve and random sampling method to parallel partition and sort spatial data,thus it balances the number of spatial data in each partition.Then the bottom-up method is introduced to simplify and accelerate the sub-index construction in each partition.Three area metrics are used to test the quality of generated index under different partitions.The extensive experiments show that the generated R-trees have the similar quality with the generated R-tree using sequential bulk-loading method,while the execution time is reduced considerably by exploiting parallelism.  相似文献   

16.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

17.
李宝林 《江西科学》2010,28(6):844-848
ETL是构建数据仓库的一个非常重要的环节,是整个数据仓库系统乃至整个决策支持系统的基石。如何设计高效的ETL过程成为众多计划或正在实施数据仓库项目的单位考虑的重要问题。针对数据来源一是Oracle数据库,二是Excel格式的经济普查电子年鉴系统的异构性,提出了一种并行数据抽取接口设计方案,解决了异构数据源的模式匹配问题,对数据进行清理、集成和变换后,整合两种异构数据源为统一的Oracle数据存储模式,消除了异构数据源之间的隔离,保证了对数据资源的有效集成。提出在数据源和数据仓库之间增加一个中间层ODS(操作型数据存储),通过在ODS中的转换策略研究,论述了如何实现个性化的数据转换,将信息仓库中的数据以多维的形式表示,满足各种方式的个性化查询。  相似文献   

18.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:2,自引:0,他引:2  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

19.
分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到与预期相近的聚类结果.实验结果表明:文中算法具有较高的实用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号