首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 420 毫秒
1.
传统数据库中存储的是相对静态的记录集,这些记录没有预先定义的时间概念,除非时间属性被显示地加上去.虽然这个模型能够较好地表示商业数据库和个人信息存储库,然而它对快速变化的数据流进行在线分析的支持存在很多限制.因此,需要对已有技术进行扩展研究,构建出新的管理系统来管理数据流.数据流的高速性和无限性以及计算机资源的有限性使得提高数据处理速度成为数据流管理系统(DSMS)的关键;本文主要讨论了DSMS的核心技术———查询优化;着重研究了在shared-nothing机群并行系统中,通过并行查询处理技术来提高数据流处理速度的新方法.  相似文献   

2.
为了对微环境监测平台上的传感器所捕获的异构、大量、连续的数据流进行语义注释,从而及时地根据语义上下文推理出新的或隐含的知识,以实现微环境监测平台的实时监测,对SASML映射语言和SDRM算法进行了研究和改进,设计了S-SASML映射语言和SDS2R算法,用于将传感器原始数据流转换为符合SOSA/SSN本体的RDF数据流;并利用线程池技术实现方法的高并发处理,提高了方法的实时性能。改进后的映射语言和算法实现了微环境监测平台对连续、大量的数据流的实时语义注释,不仅解决了动态传感器数据流语义注释的问题,而且避免了高频数据流导致的系统过载现象,具有稳定高效的处理能力,基本满足了微环境监测平台的需求,具有一定的应用价值。  相似文献   

3.
滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream。在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果。与聚类算法CluStream相比,此算法处理数据的效率更高,也相对节约内存。  相似文献   

4.
基于并行数据仓库的数据分布调整策略   总被引:1,自引:0,他引:1  
并行数据仓库系统的性能与数据在多处理机之间的分布密切相关.本文根据并行数据仓库系统的体系框架,提出了全新的并行数据仓库数据三层模式结构,并在此模式基础上,根据用户查询的变化设计了动态多维数据分布和调整策略,通过改变数据分布模式和数据物理存放的方式来保证系统数据分布均匀和工作负载均衡.实验结果证明,此算法能有效地缩短OLAP平均查询响应时间,提升系统的整体性能.  相似文献   

5.
许颖梅 《河南科学》2014,(5):777-780
数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存.  相似文献   

6.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

7.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

8.
数据流分段是数据流处理技术的基本任务,然而,它在多数据流环境下并不是一个小问题。该文提出了一个高效算法(即QPAAS算法),它能实时处理多个数据流分段。该算法利用了PAA技术中的增量计算特性,能快速处理单个数据流分段。为了处理多个数据流,它索引所有数据流的当前分段到一颗B^+树中,这样算法即可实时分段多个数据流。在真实的数据流上的多个实验表明,QPAAS算法有效而高效,仅具有线性时间和空间复杂度。而且,它比传统的PAA分段算法快几个数量级。  相似文献   

9.
随着医学图像规模的不断增长,为了快速且有效的处理医学图像并使各类图像处理算法得到应用.文章将传统的医学图像处理方法与Spark整合起来,提出了基于Spark的并行医学图像处理方法.首先,采用基于二进制的图像预处理转换方法,存储图像到分布式文件系统HDFS中;其次,应用传递函数的方法,避免了图像处理算法进行MapReduce转化,实现了快速的通用图像并行处理;最后,以肺叶DR图像分割算法为实例证明了基于Spark医学图像并行处理有较好的适应性和较高的效率,并适应大规模图像的并行处理.  相似文献   

10.
双层结构的流数据聚类算法   总被引:1,自引:1,他引:0  
提出一种双层体系结构用于流数据上的聚类分析. 快速计算层采用快速但粗糙的方法得到中间结果; 精确分析层采用更加复杂的方法对中间结果进行深入分析, 用于发现复杂的聚类. 实验结果显示, 这种结构在满足流数据快速分析要求的基础上能够得到更好的聚类结果.  相似文献   

11.
基于数据依赖关系的程序自动并行化方法   总被引:1,自引:0,他引:1  
针对目前大量串行遗产程序无法在高性能并行计算机上高效运行的问题,提出一种基于数据依赖关系分析技术的程序自动并行化方法,采用数据依赖关系分析技术对串行程序进行分析,将串行程序中基本块分成两类:彼此间具有依赖关系的基本块和彼此间无依赖关系的基本块,通过对无依赖关系的基本块进行并行处理实现串行程序的自动并行化,从而解决了在对串行程序自动并行处理时开销增大的缺点,并得到较好的并行优化结果.实例分析结果表明,该方法可以识别出可并行执行的基本块,实现串行程序的自动并行化.  相似文献   

12.
复合滑动窗口连接算法   总被引:1,自引:0,他引:1  
滑动窗口是对数据流进行连续查询处理、得出近似查询结果的一种常用的数据采样技术.连续查询处理的执行方式有2类:一类是立即执行方式;一类是周期执行方式、在已有的研究工作中,基于滑动窗口的连接算法都是适用于立即执行的连续查询.提出了适用于周期执行的连续查询的复合滑动窗口连接算法,即CSWSNLJ算法和CSWSNHJ算法.理论分析和试验结果表明CSWSNHJ算法具有较好的性能.  相似文献   

13.
云环境中基于金字塔模型的影像数据存储方法   总被引:1,自引:0,他引:1  
随着卫星遥感获取技术的发展,影像数据量呈几何式增长,传统数据存储技术已经无法适应海量影像数据的处理要求.结合金字塔模型和MapReduce架构提出了一种适用于云计算环境的分布式并行存储方法—BMLStorage(storage based on MapReduce and local file system),该方法基于金字塔模型对影像数据进行分层分块处理,并对所得瓦片重新编码.定义了一种新的存储规则,使得所有瓦片可以按照此规则利用Hadoop中的MapReduce框架实现并行存储.实验表明,该方法与现有方法相比,在海量影像数据存储性能方面有一定的提高.  相似文献   

14.
魏星贝  李陶深  许嘉  吕品  杨宁 《广西科学》2020,27(3):266-275
数据流乱序现象会导致数据流处理结果的丢失,给数据流的分析处理带来了巨大困难。本研究探讨了质量驱动下的乱序数据流连接处理问题,提出一种质量驱动的乱序数据流连接处理技术(QJoin)。QJoin采用缓冲存储技术和对称连接策略,实现并确保对流元组进行即时分析处理,从而降低了流元组处理的平均等待时间。同时,基于质量驱动的理念,根据临近阶段连接处理过程中收集统计的数据,自适应地调整和优化内存缓存区的大小,从而在满足用户结果质量要求的前提下,降低系统内部历史数据的内存缓存量,尽可能保证迟到元组的连接处理完整性。真实数据集上的实验结果表明,与传统的数据流乱序处理技术MP-K-slack相比,QJoin在满足用户结果质量要求的前提下,确保能够即时地分析处理数据流的流元组,显著降低系统的内存开销。  相似文献   

15.
杨宁  许嘉  **  吕品    李陶深     《广西科学》2019,26(4):398-404
为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显著优势。  相似文献   

16.
针对"主核心+协处理器"式异构并行系统采用数据平均划分再分批执行的方法来解决主协式处理架构的额外通信开销时未能充分利用系统资源的问题,提出了一种新的数据比例划分方法.结合系统通信带宽和图形处理器(GPU)的计算能力,将应用数据按比例划分为大小不同的数据块后分批提交给GPU处理,使系统的传输资源PCI-E总线和计算资源GPU在一段时间内并行工作,从而实现了应用通信与计算的重叠.在处理按照比例划分的数据块过程中,尽可能充分利用系统的传输资源和计算资源,以减少数据传输和计算的相互等待时间.实验结果表明,采用数据比例划分方法后的应用性能明显提高,可以有效地重叠通信与计算时间,矩阵相乘和快速傅里叶变换总执行时间比未划分时分别减少了5%和30%左右,比平均划分时分别减少了3%和6%左右.  相似文献   

17.
回顾了数据流分类领域的研究进展情况,阐明概念漂移等数据流分类需要解决的关键问题,讨论了适合于数据流经典分类算法的选择,在详细分析现有数据流分类算法优缺点的基础上,提出一种在线分类算法的设计思路.  相似文献   

18.
针对地球物理勘探领域海量数据处理需求和行业高性能资源整合需求,结合地震资料数据并行处理特征,利用网格技术建设应用网格分布并行处理平台,详细介绍平台的体系结构和关键技术,成功部署包含两个虚拟社区的应用网格平台。进行Marmousi模型地震波场正演模拟网格并行处理、基于模糊聚类作业划分策略的叠前深度偏移并行处理、积分法叠前时间偏移并行处理。验证了平台的稳定性和并行作业划分策略的有效性,平台效率与传统并行处理平台相比效率相当。结果表明,利用该平台可以进一步整合更多高性能资源,扩大并行处理规模,提高资源的利用率,缩短数据处理周期。  相似文献   

19.
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。  相似文献   

20.
基于工作站机群系统研究了H.264视频编码的并行实现方法以增强视频编码实时处理性能,对实现过程中的并行处理策略和数据划分方法进行了深入分析,在多种层次上剖析了各种方法的优势与不足,指出采用联合调度策略的并行编码系统能够在实时高效编码的同时获得可扩展性和低时延.对采用联合调度策略的并行编码系统进行了系统的性能分析,并且导出了该类并行视频编码系统"加速比"的计算关系式,表明增加并行处理节点数和减小"同步等待时间"与"基本数据单元处理时间"的比值可以提高该类并行计算系统的加速比.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号