首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
介绍了一种将基于Delphi的数据库查询结果数据生成Excel文档,实现查询数据结果的间接输出的方法,对其具体的操作步骤进行了简要的叙述,并总结了这种输出方式的一些优点。  相似文献   

2.
针对在密集分析型查询请求和海量数据的应用场景下传统关系型数据库MySQL性能不佳问题,提出了基于窗口函数(Window Function)的分析型查询优化方法,以分区(Partitioning)方法代替传统的分组(Group by)操作,并提出了基于分布式集群(SQL-on-Hadoop:SparkSQL)计算引擎的海量数据查询优化方法,采用内存列存储优化技术和Spark分布式集群计算以提高查询性能.同时,以典型的分析型SQL查询实例验证了其有效性.结果表明,所提出的查询优化方法能够显著提高查询性能.与传统的关系型数据库MySQL相比,基于SparkSQL的查询优化方法的查询速度大幅提高,从而验证了其用于可视化学术搜索系统AceMap数据查询的正确性.  相似文献   

3.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

4.
在连续查询的数据流应用系统中,需要处理连续的大容量数据元组,由于有限的硬件条件限制,会出现未能及时处理的元组,导致内存耗尽的问题和输出延迟等问题,通过查询计划中运算符的调度方法分析,在不同的场合中综合运用发挥不同方法的优势,可以做到降低内存需求和输出延迟.  相似文献   

5.
分析数据包的传输过程,分析数据拷贝操作的CPU消耗和时间代价,并研究当前的零拷贝技术PF_RING,设计出一种改进的基于操作系统的零拷贝实现方法,该方法利用Linux的内存共享和DMA技术实现数据包传输过程中内存的零拷贝,同时解决了同步问题,优化了Linux的内存管理,该方法能消除数据包传输过程中内存拷贝对CPU的消耗,缩短数据包行走路径,并进行了测试,结果表明应用零拷贝后系统效率提升明显.  相似文献   

6.
为提高联机分析查询的速度,在浓缩数据立方的基础上,构建了元组级别的内存实化方法.以内存空间至少能容纳最细粒度数据小方为前提,在内存中构造两级Hash结构:第一级Hash结构存放最细粒度的数据小方以保证所有查询都可从内存中响应;第二级Hash结构按照聚集度高的小方元组优先、相同聚集度情况下尺寸小的小方中元组优先的选择策略,选择立方元组在内存实化.处理点查询时,首先从第二级结构中直接查找满足条件的立方元组.若对范围查询,则需从第一级结构中计算获得.由于最细粒度立方元组和其他一些粗粒度元组都在内存中,避免了费时的外存存取,数据立方更新和维护代价也得以降低.  相似文献   

7.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

8.
针对密集型数据查询要消耗大量内存的缺陷,设计了一种基于流的XM L文档查询算法.该算法在对XM L流的一次单向读取过程中处理XPath,接收查询表达式,将表达式转换为树形自动机,自动机以流的方式接收并处理XM L文档,同时输出当前处理结果.在查询树状态转换过程中附加了缓存操作,用于保存XM L流中暂时无法判断的文档片段.算法测试表明其占用内存空间基本恒定,不会随被查询文档的增大而增加.  相似文献   

9.
分析了SINA在查询结果上的完整性,发现和解决了其在消极更新结果完整性上的一点不足.为了进一步提高SINA的查询效率,将并发机制引入递增计算算法中,并给出了实施并发控制的策略及其在结果正确性上的证明.实验表明,并发运行后的算法,随着时空数据集的增大,查询计算的平均时间有了明显下降,内存和CPU的利用率有了明显提高.  相似文献   

10.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式...  相似文献   

11.
为解决海量教学数据的高效处理和管理,提出基于HBase/Spark的教学大数据存储及索引模型设计.先基于组合行键构建HBase表,根据教学Course分类进行预分区,并构建cost评分函数,来检测并迁移负载,达到解决数据存储时写热点和负载均衡的问题.语义解析、组合行键索引查询、Spark并行属性条件过滤实现教学大数据高效查询.实验证明基于HBase/Spark的教学大数据的模型,能够实现更加高效的教学大数据访存管理.  相似文献   

12.
当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。  相似文献   

13.
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.  相似文献   

14.
主要是引入了物化策略来优化异构数据集成调度算法,从总体上介绍了异构数据集成系统的查询处理流程.为了解决传统查询调度存在的几个问题:成本估计不正确,运行时可用的内存不足和数据传输率无法预测,提出了满足内存限制的一种查询调度的动态策略,主要包括调度条件、监察临界值、物化策略.最后根据动态调度优化对子查询结果进行整合,通过实验证明本文中动态查询调度的优越性.  相似文献   

15.
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率.  相似文献   

16.
目前对数据流连续查询的研究工作大部分基于滑动窗口,窗口大小固定不变.本文从内存资源有限性与查询结果精确性角度出发,采用可变窗口技术,在缓存中加入窗口控制器,当数据到达缓存时,根据用户提出查询具体问题和数据流速情况,窗口分配算子对其进行窗口大小的划分.使得在内存资源有限的情况下,通过动态改变滑动窗口大小,充分利用系统资源,降低内存使用率的同时,使连续查询的查询结果都在允许的误差范围内,此方法经过验证是可行的.  相似文献   

17.
根据EPC Global标准,提出了基于RFID数据特征的网格索引结构.该索引结构针对RFID应用场景设计,不仅能实现高效的插入、查询以满足实时性的需求,还能够提高内存的利用率,节省内存.与传统索引相比,提出的索引结构能够完全适用于真实的RFID应用场景,实现条件查询、范围查询等其他传统索引很难实现的操作.可以减少内存消耗,提升条件查询,范围查询的速度.实验结果证明基于RFID数据特征的网格索引不但在插入效率上不亚于传统索引,而且在条件查询,范围查询的效率远远高于其他传统索引结构,并且内存占用率也具有一定优势.  相似文献   

18.
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:①传统的Map/Reduce引擎;②新兴的Spark引擎;③基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构.  相似文献   

19.
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。  相似文献   

20.
针对移动环境中查询点快速移动时连续、高效输出给定搜索区域数据轮廓的问题,提出一种位置依赖连续轮廓查询算法(LDCS).该算法结合数据流技术,首先使用R树快速更新查询数据,然后利用两次连续计算时搜索区域的重叠性构造被动数据流,并对新增和失效数据分别进行处理,从而连续输出轮廓.由于充分利用了已有结果,LDCS的计算量较传统算法有大幅下降.实验结果表明,LDCS特别适合计算频度要求较高的场合,与基于网格索引的算法相比,时间效率随着数据集规模的增大显著提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号