期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《西南师范大学学报(自然科学版)》2021,(5)

针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势. 相似文献

2.

复合滑动窗口连接算法 总被引：1，自引：0，他引：1

钟颖莉《哈尔滨商业大学学报(自然科学版)》2004,20(3):294-299

滑动窗口是对数据流进行连续查询处理、得出近似查询结果的一种常用的数据采样技术．连续查询处理的执行方式有2类：一类是立即执行方式；一类是周期执行方式、在已有的研究工作中，基于滑动窗口的连接算法都是适用于立即执行的连续查询．提出了适用于周期执行的连续查询的复合滑动窗口连接算法，即CSWSNLJ算法和CSWSNHJ算法．理论分析和试验结果表明CSWSNHJ算法具有较好的性能．相似文献

3.

分布式数据库查询优化研究

段博超《科技资讯》2009,(8):18-18

本文在充分讨论分布式数据库和查询优化的概念、特点及查询优化目标的基础上,说明不同的查询策略通信时间相差很大,一个好的查询策略往往比一个坏的查询策略在执行效率上高出几个线性数量级。然后着重以学生选课数据库系统为例,分析了查询优化策略中的基于半连接算法的思想以及连接过程,得到优化基于半连接查询策略的方法,从而提高系统的查询效率。相似文献

4.

一种具有服务质量支持的数据访问方法

庞雄文鲍苏苏李冬《华南理工大学学报(自然科学版)》2009,37(10)

针对目前的查询优化技术并没有考虑网格环境中数据源的动态特征,导致数据访问质量很差的问题,文中提出了网格环境中具有服务质量(QoS)支持的数据访问方法.它能在查询优化的过程中考虑数据源的动态特征以及用户的QoS要求,根据用户的QoS要求选择不同的查询执行计划;文中还提出了基于管道并行方式的分层管道树来对多连接表达式进行优化,它不仅可以提高并行度而且可以尽快返回部分结果给用户.实验结果表明,文中提出的方法是有效的,可以为不同类型的用户提供不同等级的数据访问服务. 相似文献

5.

应用聚簇索引的多连接查询优化方法 总被引：1，自引：0，他引：1

孟军李建强张大鲲《大连理工大学学报》2003,43(Z1):186-189

多连接查询优化是提高数据库性能的关键问题之一.查询优化主要针对连接等一些具有较高执行代价的操作进行研究.在分布式查询优化中,应同时考虑本地处理代价和传输代价.提出了一种应用聚簇索引来优化多连接查询的方法,旨在减小查询的代价.分析对比证明该方法具有较好的效果. 相似文献

6.

基于近似等深柱状图的数据流并行聚集算法

下载免费PDF全文

侯燕王永利《解放军理工大学学报(自然科学版)》2008,9(1):29-33

针对数据流并行聚集问题,提出了一种不同于关系数据和时间序列数据处理的并行聚集方法.为解决已经划分出的数据流元组无法再现的特点,提出能够感知数据流变化的采样算法对数据流采样.利用近似等深柱状图技术描述采样数据的分布特征,平均分配数据流量.使用时间聚集森林结构计算时间窗聚集.通过验证采样个数对并行聚集的影响,数据分布对近似划分向量算法性能的影响,测试数据流量与并行聚集加速比的关系,证明本算法能够高效地计算数据流聚集查询. 相似文献

7.

一种基于虚拟数据库的分布式查询优化算法 总被引：2，自引：1，他引：1

何家颖黎绍发《华南理工大学学报(自然科学版)》2003,31(11):24-29

针对虚拟数据库系统(简称“VDBMS”)执行分布式查询时的网络代价问题,提出一种基于关系运算代价估算理论及半连接技术的分布式查询优化算法SJQA(Semijoin Based Query Algorithm),较之最大子查询法,该算法加入了对子查询之间执行顺序及连接方式等方面因素的考虑,从而能更有效地减少分布式查询的总网络代价．实验结果表明,对于带有选择运算的查询,SJQA算法的优化效益与查询的选择因子大小成近似反比关系,因此它对该类查询的优化效果是十分明显的。相似文献

8.

周期环境下集装箱码头资源分配的动态干扰管理

韩笑乐钱丽娜陆志强《同济大学学报(自然科学版)》2018,46(2):264-272

在周期性环境下,考虑船舶到港时间及市场需求的不确定性,运用动态干扰管理方法,协同调度集装箱进出口码头各项资源.在现有周期性模板前提下,提出基于两阶段近似优化的动态决策框架,包括第一阶段需执行的固定性决策及第二阶段基于场景的可调整预决策,最小化时间与空间加权偏差,减小作业执行的波动.基于提出的决策框架,设计双层嵌套禁忌搜索算法,对模型和算法的有效性进行验证.数据实验表明相比较于传统的方法,考虑加权目标的两阶段动态决策思路能够更好地应对干扰事件产生的影响. 相似文献

9.

Outlier-DivideConquer：近似聚集查询中离群分治取样算法

胡文瑜孙志挥张柏礼《南京大学学报(自然科学版)》2011,(5):524-531

取样是一种通用有效的近似技术,利用取样技术进行近似聚集查询处理是决策支持系统和数据挖掘实现技术中的常用方法.如何正确有效地给出近似查询结果并最小化近似查询误差是近似查询处理的关键和目标.在深入研究近似聚集查询取样方法的基础上,本文提出了一个有误差确界且只需单遍扫描数据集的离群分治取样Outlier-DivideConq... 相似文献

10.

基于布谷鸟过滤器的外连接算法

《华东师范大学学报(自然科学版)》2017,(5)

近十几年,由于互联网的发展异常迅猛,数据规模不断增加,分布式数据库的分析效率亟待优化,其中连接操作更是分布式数据库的主要性能瓶颈.外连接在商业中运用非常广泛,分布式外连接算法涉及到大量的网络传输,严重影响系统性能,虽然有一些研究针对内连接进行了优化,但这些优化方法并不能直接应用于外连接.文章中基于Cuckoo filter(布谷鸟过滤器)的分布式外连接算法,通过构建Cuckoo filter对数据进行筛选和分配,减少数据传输量的同时,提高执行的并行度,使得查询性能得到提升.通过在Ginkgo上实现该算法,并加以充分实验,验证得出该算法提高了分布式外连接操作的效率. 相似文献

11.

基于层次序列OLAP-Cache在大规模监测数据查询优化中的应用

赵杰《科学技术与工程》2013,13(26):7851-7855

利用OLAP进行大规模监测数据查询时存在效率低和实时性差的问题,传统解决方法主要利用缩小数据集市数据的方法,虽然在一定程度上提高了查询效率,但是会出现丢失数据的现象。提出在基于聚类方法基础之上进行层次序列OLAP查询优化,并针对大规模海洋监测数据的特点提出OLAPCache多级查询方法。在该算法中,首先分析OLAP序列立方体的查询效率问题;其次以等价类的层次关系为基础,确定等价的上下界和聚类值;然后利用改进的各级查询层次的运算策略来判断OLAP查询的语义特性,提高其Cache性能;最后结合OLAP查询集的闭包中存在最小蕴含关系的特点,对OLAP查询的蕴含关系进行分组查找。通过大规模监测的海洋数据对该算法进行仿真验证,仿真表明,该算法有效地避免了对大规模海量数据的递归查询,具有较好的执行效率。相似文献

12.

公路网移动终端的KNN查询技术

梁茹冰刘琼《华南理工大学学报(自然科学版)》2012,40(1):138-145,158

公路网中移动兴趣点(POIs)的查询处理是一个难点,目前的研究多基于欧氏距离对静态POIs进行处理,不能很好地适应移动环境下终端弱连接和频繁移动的需要.文中在公路网移动计算场景下,设计了一种存储分区数据对象的结构来表示公路网图形模型,提出适用于移动终端的连续KNN查询(CQ-KNN)算法.该算法改进了Wang等提出的MKNN算法,将逐层渐近探测和检索边列表结合起来进行近邻查询,避免了MKNN算法在限定层数不够却不得不执行范围查询时所带来的开销;同时使用缓存策略来支持移动终端提交的连续查询请求,并给出基于广播位置失效报告的缓存一致性维护策略.仿真结果表明,CQ-KNN算法较MKNN算法有更快的CPU处理速度和更短的网络响应延时,并且能支持移动终端的离线KNN近似查询. 相似文献

13.

基于线性浓密树的并行数据库查询优化算法

厉阳春《湖南理工学院学报：自然科学版》2006,19(1):20-23

查询优化是并行数据库的核心技术。基于线性浓密树的查询优化方法是对基于浓密树(Bushy-Tree)查询优化方法的一种改进,这种优化方法大大地缩减了查询执行计划空间,确保了并行查询执行计划的优化性。相似文献

14.

基于Cluster结构的多维动态数据分布方法 总被引：1，自引：0，他引：1

蒋廷耀睢海燕《三峡大学学报(自然科学版)》2004,26(1):67-72

数据分布是数据库查询并行处理的基础，良好的数据分布方法对查询性能有着重要影响，本文提出了一种新的基于Cluster结构的多维动态数据分布方法，该方法能保证数据均匀分布在多个处理机上；能动态调整数据片段的大小，使关系始终保持最优并行度；并能有效地支持各属性上的查询操作，性能分析及实验结果表明，在大规模的并行系统中，本文方法的性能优于过去的数据分布方法。相似文献

15.

支持大规模流数据处理的在线MapReduce数据传输机制

魏晓辉李聪李洪亮李翔刘圆圆李丽娜庄园《吉林大学学报(理学版)》2015,53(2):273-279

针对流数据规模参差不齐、流量动态变化且突发性较强的特点, 提出一种可伸缩的动态MapReduce计算模型, 支持大规模动/静态数据在线处理. 基于Event推送方式, 利用Netty底层异步通信方式等技术, 建立在线MapReduce数据传输机制, 进一步实现其原型程序, 解决了大规模分布式计算程序的快速在线传输和数据分发等问
题, 支持流数据动态分发机制, 为动态MapReduce模型提供支撑. 与HadoopOnline系统的传统Socket管道传送方式相比, 该方法能有效提高作业之间数据的传送效率, 从而提高大规模流数据处理的实时性. 相似文献

16.

基于Hadoop的即时查询分析平台

基于Hadoop的即时查询分析平台《山东科学》2015,28(5):115-119

为了解决大数据的深度挖掘和即时查询的需求,建立了一个分布式、可伸缩、低成本和大容量的并行计算集群,实现了半结构化数据的SQL查询分析,并提供了标准对外接口。相似文献

17.

A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning

Yanxia Lv Sancheng Peng Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《清华大学学报》2019,(4)

By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 相似文献

18.

混合动态数据库集群的并行空间连接优化算法

晋国卿《科学技术与工程》2019,19(12)

传统算法数据划分冗余度和倾斜度高,无用连接数据多,降低负载均衡性,对整体效率产生不好的影响,不适于实际应用。为此,面向混合动态数据库集群提出一种新的并行空间连接优化算法。采用网格划分法对数据进行划分,依据空间数据划分结果获取数据分布状态,计算节点按照数据分布状态得到候选集。通过平面扫描形成若干子空间连接的子任务,利用构建节点花费模型,依据花费模型对并行空间连接所需的平均节点访问个数进行评估,把候选任务集分配至不同计算节点,在不同节点执行并行空间连接操作。通过边界过滤策略,删除不可能有结果的元组,提高效率,增强算法的实用性。实验结果表明,所提算法适于实际应用,效率高。相似文献

19.

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

KOU Yue SHEN Derong YU Ge LI Dong NIE Tiezheng 《武汉大学学报:自然科学英文版》2007,12(5):830-834

Caching is an important technique to enhance the efficiency of query processing. Unfortunately, traditional caching mechanisms are not efficient for deep Web because of storage space and dynamic maintenance limitations. In this paper, we present on providing a cache mechanism based on Top-K data source （KDS-CM） instead of result records for deep Web query. By integrating techniques from IR and Top-K, a data reorganization strategy is presented to model KDS-CM. Also some measures about cache management and optimization are proposed to improve the performances of cache effectively. Experimental results show the benefits of KDS-CM in execution cost and dynamic maintenance when compared with various alternate strategies. 相似文献