首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 221 毫秒
1.
现有的RDF关键词搜索方法主要是在大规模的RDF数据图上直接进行搜索,未能充分利用RDF本体中的语义信息,迭代次数过多造成搜索效率和效果不理想.针对这些问题,借助Redis内存数据库集群,提出分布式RDF关键词近似搜索算法(DKASR),即在分布式平台上实现大规模数据的并行搜索.算法结合RDF本体的语义信息构建本体子图,利用语义评分函数对本体子图进行排序,借助MapReduce计算模型实现并行搜索并返回Top-k结果;如果返回的结果没有达到Top-k,则对本体子图进行扩展生成近似本体子图,使用语义相似度函数对近似本体子图进行排序,再利用MapReduce计算模型实现并行搜索,直到返回Top-k结果.实验结果表明,DKASR算法能够高效正确地实现RDF关键词近似搜索并有效返回Top-k结果.  相似文献   

2.
针对现存资源描述框架(RDF)查询方案不能满足日益剧增的海量RDF数据的关键词搜索要求,提出一种面向大规模RDF数据的分布式搜索算法(KDSOS).该算法首先结合RDF本体构建查询关键词对应的本体子图集并利用评分函数评分;其次在大规模的RDF数据图上优先搜索评分高的本体子图对应的结果子图,直到找到Top-k结果.实验结果表明,KDSOS算法在搜索效率和准确率上都具有明显的优势.  相似文献   

3.
全局查询效率一直是中间件异构数据库集成中的热点和难点问题,由于目前异构数据库绝大多数是关系型数据库,所以采用半连接方法优化连接操作,并在半连接图的基础上提出了多个站点的半连接执行方案优化算法,该算法根据半连接图生成有向无序树,使多个半连接操作能够并行执行,经分析能有效地提高全局查询效率.  相似文献   

4.
针对不确定W eb社会网络的Top-k子图查询问题,以无向、顶点带标签及边赋权重的简单图为基本模型,设计了用来简洁描述社会网络并编码原始图信息的摘要图,提出了Top-k子图同构查询算法。针对真实和虚拟网络数据进行了大量实验,结果表明:基于摘要图的Top-k子图查询算法较VF2算法运算时间缩短;由于构建摘要图时的主要依据是顶点的标号,因此查询图的标号分布对查询性能有较大影响;顶点标号数目增加时该算法的查询性能呈类似指数形式提高,而VF2算法的查询性能没有受到较大影响;当数据图的顶点数量增大时,该算法与VF2算法相比,消耗时间的增长更缓慢;该算法在处理Top-k查询时体现出了稳定高效的性能。  相似文献   

5.
子图同构查询用于返回数据图中与给定查询图匹配的子图,是图数据管理中的核心问题。如果匹配策略不当、查询结点和数据结点之间大量的冗余枚举以及剪枝策略不当,都会引起查询中的冗余计算问题。本文首先将查询图转化为邻居等价类树并使用过滤条件生成候选区域;其次,通过对候选区域探测将区域中的结点进行排列组合得到结点匹配顺序,并对数据结点进行验证,得到查询图在数据图中的所有匹配的子图;最后给出了基于上述策略的URSI算法,并在真实的数据集上通过实验验证了所提算法的高效性。  相似文献   

6.
一种基于虚拟数据库的分布式查询优化算法   总被引:2,自引:1,他引:1  
针对虚拟数据库系统(简称“VDBMS”)执行分布式查询时的网络代价问题,提出一种基于关系运算代价估算理论及半连接技术的分布式查询优化算法SJQA(Semijoin Based Query Algorithm),较之最大子查询法,该算法加入了对子查询之间执行顺序及连接方式等方面因素的考虑,从而能更有效地减少分布式查询的总网络代价.实验结果表明,对于带有选择运算的查询,SJQA算法的优化效益与查询的选择因子大小成近似反比关系,因此它对该类查询的优化效果是十分明显的。  相似文献   

7.
子查询是指查询语句作为另一个语句的查询条件出现,相关子查询是指子查询的查询条件依赖于父查询.相关子查询要对子查询反复求值,需要多次访问磁盘,尤其是在分布式的环境中还会产生大量的通信开销,导致执行效率低下.在对现有相关子查询优化策略分析研究的基础上,综合分布式的特点,将子查询展开、无用子树切除、聚集函数消除等策略应用于分布式关系数据库系统中,并在开源分布式关系数据库0ceanBase中应用这些策略实现对谓词EXISTS的相关子查询的优化.实验表明这些策略能够明显改善相关子查询的查询性能.  相似文献   

8.
针对大型图中的各种top-k近似子图查询算法存在的顶点重叠度高、无法满足多样性匹配结果输出等问题,提出具有最大顶点覆盖集的多样性近似子图查询算法.该算法建立基于近邻关系和基于区域划分的双重索引,并为相互关系紧密的同标号顶点建立簇索引.在图查询过程中,利用近邻特征为查询图中的每个顶点快速筛选出满足局部匹配要求的候选顶点集,并从不同区域找到多个满足要求的近似匹配子图,避免了查询结果间的高重复率.同时,基于区域和同标号近邻簇的划分,优先查找属于不同划分或不同簇顶点的匹配,减少了不同区域划分间的交互,提高了查询的效率.在大量数据集上的实验结果验证了该算法在查询效率和结果多样性等方面的有效性.  相似文献   

9.
针对分布式传感器网络提出多维概率Top-k查询处理算法DMPT.利用Skyline操作返回Top-k元组,通过反馈机制和过滤机制减少数据传输量及查询处理时间.DMPT考虑了数据的不确定性、多维属性以及网络的分布式和能源受限特征,根据Skylayer计算得到Top-k结果.通过真实数据和模拟数据实验验证得到:DMPT算法比传统算法具有更高的节能效率和更快的响应速度.  相似文献   

10.
当处理分布式、大规模的服务选择时,传统服务选择方法存在着效率不高和全局Qo S性能低下的问题。基于Map Reduce框架,设计了一种云环境下的海量服务选择方法以解决此问题。首先,基于Map Reduce框架,利用Skyline算法,筛选海量候选服务,生成Skyline服务库;其次,基于迭代式Map Reduce框架,运用多目标模拟退火算法,从所生成的Skyline服务库中优选Skyline服务,产生一组Pareto最优的组合服务;最后,依据用户的个性化和多样性需求,执行Top-k查询,优选出满足用户偏好的k个组合服务。该方法适应于具有分布式环境、高维Qo S的海量服务选择,能快速返回组合服务,且其全局Qo S较优。  相似文献   

11.
针对传统自整合信息检索方法在对图书自整合信息进行检索时, 存在检索结果不准确和效率低的问题, 提出一种基于Top-k查询算法的图书自整合信息快速检索方法. 首先利用Top-k查询算法对去噪后的自整合信息进行匹配, 然后建立自整合信息快速检索模型, 根据词意的重要性对图书自整合信息进行快速检索. 仿真实验结果表明, 该方法检索性能较好, 缩短了整体运行所需时间, 提升了检索效率, 且检索结果更准确.  相似文献   

12.
目前基于不确定数据的Top-k查询算法仅考虑了集中式的环境,为了解决分布式系统中节省系统带宽的问题,在此基础上,提出了在分布式环境中基于不确定数据的Top-k查询算法UDTopk.该算法定义了一个候选集(candidate set),仅使用候选集中的数据,而不用访问数据集中所有数据,就可以得到正确的Top-k查询答案.算法通过动态维护候选集、仅传输少量数据,达到减少网络中数据传输的目的.实验结果表明,该算法可以有效地节省网络带宽.  相似文献   

13.
图的最短路径查询作为图论的经典问题,广泛应用于现实世界的许多应用中.然而随着图的规模日益增大,传统单机环境下的查询算法已无法满足大规模图的处理需求.为解决上述问题,提出基于Hadoop的大规模图最短路径查询方法(D-CH方法):首先利用经典的图分割算法(CNM算法)将存储于Hadoop分布式文件系统(HDFS)中的大规模图进行分割,给出了适于后续算法的标记分割结果;然后将查询区分为分割后子图内查询和子图间查询,基于MapReduce编程模型分别给出相应的并行化查询处理算法.实验结果表明,D-CH方法对大规模图的最短路径查询具有良好的执行效率.  相似文献   

14.
由于当前已有的在非确定数据库上的Tbp-k查询普遍基于元组层面,使得应用受限.为了让查询结果更符合直觉,提出了两种新的非确定数据库上的基于x-元组层面的Top-k查询及其执行算法.这两种新的查询综合x-元组中各元组的评分和置信度,获得在返回结果中最具实际意义的位置.查询的执行算法经过优化,执行效率明显改善.  相似文献   

15.
本文在充分讨论分布式数据库和查询优化的概念、特点及查询优化目标的基础上,说明不同的查询策略通信时间相差很大,一个好的查询策略往往比一个坏的查询策略在执行效率上高出几个线性数量级。然后着重以学生选课数据库系统为例,分析了查询优化策略中的基于半连接算法的思想以及连接过程,得到优化基于半连接查询策略的方法,从而提高系统的查询效率。  相似文献   

16.
分布式查询算法的核心部分是全局查询优化算法,将查询请求合理地优化分解为子查询任务,并尽量使子查询任务并行执行。分布式查询的优化需要权衡网络流量、响应时间、服务器负载、算法复杂性等多种因素。本着减少节点之间的数据传输量的目的,本文提出一个复杂度和延迟时间之间进行衡量的全局优化算法。本文就连接查询和复合查询进行了详细的分析,最后提出了一种基于半连接的查询优化算法,并分析了该改进算法的优缺点。  相似文献   

17.
针对目前路径表达式的查询,提出了一种自顶向下基于模式匹配的查询策略.利用延迟结构连接,减少了目前比较费时的结构连接操作次数;另外在自顶向下基于模式匹配的计算过程中,为了尽可能减小中间结果集,引入一个子模式栈来保存已匹配的子模式,并利用子模式的出栈动作判断当前要处理的子模式和子模式栈的栈顶元素之间的关系(相连或者相交),从而可以删掉无用的的中间结果,一定程度上优化了空间复杂度.而且,本查询策略不依赖于特定的索引结构.通过对本查询策略进行理论分析和证明,可以看出,自顶向下基于模式匹配的查询方法是有效的。  相似文献   

18.
黄月华  周萍 《中国西部科技》2007,31(8):86-87,102
分布式查询算法的核心部分是全局查询优化算法,将查询请求合理地优化分解为子查询任务,并尽量使子查询任务并行执行。分布式查询的优化需要权衡网络流量、响应时间、服务器负载、算法复杂性等多种因素。本着减少节点之间的数据传输量的目的,本文提出一个复杂度和延迟时间之间进行衡量的全局优化算法。本文就连接查询和复合查询进行了详细的分析,最后提出了一种基于半连接的查询优化算法,并分析了该改进算法的优缺点。  相似文献   

19.
近十几年,由于互联网的发展异常迅猛,数据规模不断增加,分布式数据库的分析效率亟待优化,其中连接操作更是分布式数据库的主要性能瓶颈.外连接在商业中运用非常广泛,分布式外连接算法涉及到大量的网络传输,严重影响系统性能,虽然有一些研究针对内连接进行了优化,但这些优化方法并不能直接应用于外连接.文章中基于Cuckoo filter(布谷鸟过滤器)的分布式外连接算法,通过构建Cuckoo filter对数据进行筛选和分配,减少数据传输量的同时,提高执行的并行度,使得查询性能得到提升.通过在Ginkgo上实现该算法,并加以充分实验,验证得出该算法提高了分布式外连接操作的效率.  相似文献   

20.
针对NRA算法和BPA算法查询效率不高、重复访问数据的问题,提出了一种基于三维分档布鲁姆过滤器表(TF)的Top-k查询算法(TKBFP).该算法使用TF对数据进行处理,以较低的误判率获得较高的访问效率并降低了内存消耗,利用最优位置索引策略,避免重复访问数据对象.对TKBFP算法进行了严格的语义定义,推导出每一维BF中需要的哈希函数个数;以自主开发的Java程序为仿真平台,对TKBFP算法进行了试验,并对算法执行效率和存储性能进行评价.试验结果表明,该算法能够避免重复访问数据对象,并能以较低的误判率实现大规模数据的高效查询处理.与NRA和BPA相比,当属性列表超过4个时,开销明显降低,适合面向大规模数据的查询处理应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号