首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
为提高联机分析查询的速度,在浓缩数据立方的基础上,构建了元组级别的内存实化方法.以内存空间至少能容纳最细粒度数据小方为前提,在内存中构造两级Hash结构:第一级Hash结构存放最细粒度的数据小方以保证所有查询都可从内存中响应;第二级Hash结构按照聚集度高的小方元组优先、相同聚集度情况下尺寸小的小方中元组优先的选择策略,选择立方元组在内存实化.处理点查询时,首先从第二级结构中直接查找满足条件的立方元组.若对范围查询,则需从第一级结构中计算获得.由于最细粒度立方元组和其他一些粗粒度元组都在内存中,避免了费时的外存存取,数据立方更新和维护代价也得以降低.  相似文献   

2.
基于模糊匹配的数据清洗   总被引:2,自引:0,他引:2  
提出了一种新的模糊匹配相似度函数及一种高效的模糊匹配算法,该算法能够高效的寻找与输入元组最相似的L个参考元组;为了提高查询效率,提出了对参照关系建立错误容错索引。  相似文献   

3.
密文索引技术是提高外包数据库查询效率的一种有效手段,但目前的索引方案存在查询命中率低的缺陷,造成了不必要的网络堵塞。减少冗余元组的数量是解决该问题的关键之处。本文以提高字符数据的查询效率为目标,首先确定构成属性域的所有字符,然后对每个字符映射成个字符索引,再将字符索引与干扰字符适当结合形成密文索引。以此为基础,提出一种字符数据的-映射密文索引技术。该技术消除了冗余元组,且支持各种模糊查询。最后给出了应用于外包数据库模型中的密文查询策略,并对该方法进行了理论分析和实验验证。  相似文献   

4.
基于OLAP查询的数据集市系统的研究   总被引:3,自引:0,他引:3  
研究了通过对数据仓库视图进行水平分割来建立数据集市系统,提高OLAP查询效率的方法和技术。提出了根据OLAP查询中的选择谓词构造其最小项谓词,选择数据仓库立方体视图进行水平分割,利用视图分割后的裂片建立的数据集市来回答查询,达到减少访问的视图元组数和加快查询响应时间,从而提高OLAP查询效率,削减维护费用。  相似文献   

5.
卢印举 《科学技术与工程》2013,13(18):5366-5370
在传感器网络、RFID等各种应用中会产生大量不确定性数据,有效的Top-K查询处理是不确定性数据管理中一项重要技术。针对已有的Top-K查询没有很好地结合元组的分值和不确定性,在分析不确定性数据模型和可能世界模型的基础上,定义了不确定数据流元组的查询语义。设计并实现了一种有效的Top-K查询算法。该算法按照元组的得分值进行降序排列,概率值最高的前K个元组集合就是Top-K的查询结果,实验结果表明,与CSQ和SCSQ算法相比,更具高效性和实用性。  相似文献   

6.
XML数据在关系数据库中存储和检索和研究和实现   总被引:6,自引:0,他引:6  
论述了关系型数据库和XML数据之间的相互转换,给出了将XML数据存储在关系数据库和将存储在关系数据库的XML数据恢复的XML形式的算法,由于实际数据类型的复杂性,使用Schema来定义XML文档类型,试验结果表明算法具有较好的性能,讨论了将XML_QL查询语句转换为SQL查询语句的设计,根据文中XML数据存储在关系型数据库中的算法,可以对XML_QL查询语句的语法,语义进行分析以转换为相应形式的SQL语句来关系数据库中查询被存储的XML数据,并返回相应的结果集。  相似文献   

7.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

8.
为解决传统的关系型数据库在海量数据的存储和访问效率中存在的瓶颈问题, 提出了一种基于非关系型(NoSQL: Not only SQL)数据库的地学大数据高效存储方法。同时以MongoDB为代表, 通过C#语言编写测试程序, 与SQL Server在地学大数据的存储、 查询等方面进行了性能对比。结果表明, 与传统关系型数据库相比, NoSQL数据库的增、 删和查询耗时明显降低, 尤其是针对海量的非结构化、 半结构化数据, 其性能优势更加明显。  相似文献   

9.
在数据发布的过程中,为了保护个人隐私常需对所有准标识符进行泛化操作,而实际涉及到个人隐私相关敏感属性元组是非常少的.据此,从这些涉及个人隐私的敏感属性的元组出发,将剩余大量仅涉及非敏感属性元组依据敏感属性值不同进行分组,最后对分组中元组以计算与个人隐私属性相关敏感属性距离的方式,选取距离最短的元组进行泛化,其余元组并不进行泛化,通过这种方式,提高了数据的利用率,并有效减少信息的损失.  相似文献   

10.
数据库模糊查询结果自动排序方法   总被引:1,自引:0,他引:1  
数据库模糊查询会产生多个查询结果,因此有必要将查询结果按照用户需求进行排序.首先根据元组对模糊查询的隶属度,将查询结果中具有不同隶属度的元组分开.然后,利用PIR改进模型和历史查询记录来分析元组中被查询指定的属性值与未指定的属性值之间的关联程度,从而获得用户偏好并以此对具有相同隶属度的元组进行排序.在此基础上,提出了模糊查询下的DPR自动排序方法.实验及分析证明,提出的模糊查询结果自动排序方法能够极大地提高排序质量.  相似文献   

11.
杨宁  许嘉  **  吕品    李陶深     《广西科学》2019,26(4):398-404
为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显著优势。  相似文献   

12.
Web数据库近似查询结果自动排序方法   总被引:2,自引:0,他引:2  
针对Web数据库近似查询产生的多查询结果问题,提出了一种近似查询结果自动排序方法,该方法利用KL距离(Kullback-Leibler distance),PIR(probabilistic information retrieval)模型和查询历史(query history)来构建元组排序打分函数;打分函数根据结果元组中被查询指定的属性值对初始查询的满足度和未被查询指定的属性值与用户偏好的相关度来评估元组的排序分值.实验证明,提出的排序方法能够较好地满足用户需求和偏好,并具有较高执行效率.  相似文献   

13.
目前基于不确定数据的Top-k查询算法仅考虑了集中式的环境,为了解决分布式系统中节省系统带宽的问题,在此基础上,提出了在分布式环境中基于不确定数据的Top-k查询算法UDTopk.该算法定义了一个候选集(candidate set),仅使用候选集中的数据,而不用访问数据集中所有数据,就可以得到正确的Top-k查询答案.算法通过动态维护候选集、仅传输少量数据,达到减少网络中数据传输的目的.实验结果表明,该算法可以有效地节省网络带宽.  相似文献   

14.
E-Score查询算法返回元组期望最大的k个结果,常常不能适应更高级客户的查询需求,语义需要改进使得更加合理.本文把位置概率引入进E-score语义,定义了一个新的Topk查询语义——带有位置概率的期望得分排序(PPE-Score),并基于位置概率对算法进行修枝剪枝形成相应算法.最后用实验验证新剪枝算法的有效性.  相似文献   

15.
如何提高演绎数据库的递归查询效率是演绎数据库领域所面临的一个重要问题.介绍了一种结合传统的逻辑查询处理自顶向下和自底向上两种处理方式的递归查询算法.该算法基于侧向信息传递策略,把查询计算始终限制在与查询的初始约束相关的元组,从而避免了大量无关数据的计算.  相似文献   

16.
数据立方体在许多多维数据的数据仓库的高速OLAP操作中扮演着重要的角色. 但在许多高维的数据仓库的应用中,查询分析效率是个关键的问题.例如超过100维,大约106个元组.在这样高维情况下建立全物化数据立方体来减少分析时间是不可行的.利用最小方的方法可以在高维数据集上进行有效OLAP操作的方法.如果能根据查询分析的历史记录合理地为立方体的维分片,就能在相同空间复杂度的情况下提高OLAP操作的效率.  相似文献   

17.
针对复杂生态信息的存储与管理问题,提出一种基于B 树的多维层次聚集立方体存储结构模型。通过将d维数据空间构建成多维层次式B 树,并节点进行压缩的二进制维层次编码,在此基础上实现了模型的快速查询、数据更新与模式更新算法。与传统的Data Cube相比,MH-Cube具有较好的查询与更新功能。生态数值实验表明,模型可为复杂生态信息的存储与管理提供较好的解决方案。  相似文献   

18.
范围查询是对数据立方体进行数据分析的有效方法,预计算技术可以提高数据立方体范围查询的速度,实现快速的用户响应.近年来研究人员基于多维联机分析处理(MOLAP)预计算的研究主要以prefix sum及分块技术为基础,本文对分块方案及如何组织块内单元实施prefix sum方法进行探索,提出了前缀区域数据立方体结构(Prefix Region Cube,PRC),采用基于前缀区域的不规则的分块方案,这种分块方法利于从起始单元开始的前缀区域范围查询的实现.另外PRC在分块及对划分后的块内单元实施prefix sum时都采用回归分割技术,在不增加额外立方体空间的前提下,实现范围查询和数据更新的代价都为O(logdn).  相似文献   

19.
根据Data Cube模式中维的层次性,提出了层次式B^+树及维层次编码的概念,并应用于层次树形Cube(HT Cube)方法中.HT Cube将维划分为聚集维与分析维,在分析维上利用层次式B^+树除去了冗余数据,并在查询过程中形成维层次编码,在聚集维上则利用维层次编码组合而成的分析维编码进行索引,从而可以高效地检索到聚集值.理论分析和实验证明,该方法不但节省了存储空间,而且可利用层次信息高效地进行各种OLAP查询,为Data Cube模式更新、OLAP查询导航和OLAP查询行为分析的实现提供了可能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号