首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 17 毫秒
1.
随着Web内容爆炸式增长,基于RDF的开放关联数据越来越多,传统的RDF推理技术难以适应日益增长的大规模RDF数据推理任务.提出基于MapReduce的分布式迭代算法,设计了简洁的去重方法,实现分布式RDF推理,解决了RDF传递推理工程中持续产生单调递增数据集传递闭包问题.实验采用基于Hadhoop的分布式文件系统存储MapReduce算法,实验结果显示方法具有较好的计算性能和可扩展性.  相似文献   

2.
马秀平 《科技信息》2010,(22):I0189-I0190
随着Web信息呈指数级增加,目前存储模式已难以适应大规模RDF数据高效存储的需求。本文通过对语义万维网结构以及RDF语义文件存储和查询技术的研究,分析了海量语义数据管理的研究领域和现状,提出了基于RDF的海量数据管理框架。该框架旨在实现对海量数据的管理,以解决RDF数据管理中存在存储设计难度大,查询处理复杂且效率低,查询结果排序困难的问题。  相似文献   

3.
提出了一种应用于流程工业的分布式海量报警管理系统,利用Hadoop平台的分布式可扩展特性实现了海量报警数据的可靠存储和高效处理.在数据存储层,通过合理的列式存储结构设计,实现了海量报警数据的分布式集群存储;在信息查询层,实现了类MapReduce过程的报警管理系统分布式并行查询模型;在功能应用层,根据业务需求实现了基本的报警管理功能模块.测试结果表明,面对海量报警数据的应用场景,基于Hadoop平台的分布式海量报警管理系统比传统报警管理系统具有更为出色的性能.  相似文献   

4.
针对RDF含相对量词模糊查询问题,提出支持分组机制的相对量词RDF模糊查询方法.利用语言层次结构理论,构造语言层次结构表,通过在FILTER子句中增加模糊条件并调用GROUPBY和HAVING子句实现特定属性上的分组操作,实现对SPARQL语法的扩展.分析了两种典型情况下的RDF相对量词模糊查询问题,给出将扩展的模糊SPARQL查询转换为标准SPARQL查询的处理方法,从而可利用现有的SPARQL查询引擎完成RDF基于相对量词的模糊查询处理.实验系统及相应的实验结果验证了所提方法的可用性.  相似文献   

5.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势.  相似文献   

6.
提出一种将关键词查询转换为SPARQL查询的方法来进行RDF数据的搜索.首先,根据RDF本身的关联特点,构建一个压缩实体摘要图;然后,借助关键词与所在实体的索引,将所查询的关键词在该摘要图上进行定位,通过图双向搜索算法找出包含关键词实体的前k子图,获得查询实体之间的关系,再联合最初的关键词及他们的属性,构建SPARQL查询;最后使用SPARQL搜索引擎执行查询.实验结果表明,所提方法较其他方法有更快的响应时间及更高的准确率.  相似文献   

7.
随着大数据时代的到来,互联网所承载的信息呈现出异构性强、价值密度低、来源分布广、实时性高等新的特点.因此在信息检索时,与获取相关网页相比,人们更希望获得页面中包含的知识.RDF作为一种新的知识表示和发布形式,以其精确且易于理解的语义结构得到了广泛的认可和应用.但传统基于语法匹配策略的SPARQL查询方法无法发现RDF数据中不同谓词间的隐含语义,不能从语义层面上获取更加完备的查询结果.针对这一问题,设计了一种新的查询方法来扩充传统SPARQL查询模式.首先分析RDF三元组中谓词的语义属性.在此基础上,根据不同谓词间语义属性的标注,对输入SPARQL语句中具有语义属性的谓词进行扩展,从而给出了一种新的一般化的查询策略.最后通过实验验证了这种语义扩展查询方法的可行性和正确性.  相似文献   

8.
知识图谱是将无结构的知识进行结构化表示和组织的有效途径,已经成为支持众多智能应用的基础设施.然而,与商品相关的知识通常呈现出海量性、异质性和层次性的特点,这对现有基于关系模型和图模型的知识查询处理方法提出了挑战.针对商品知识的这些特点,本文设计与实现了一种利用CPU和GPU协同计算的商品知识查询处理方法.首先,为了充分发挥GPU的并行计算能力,提出了一种基于稀疏矩阵的商品知识存储策略,并针对商品知识进行存储优化;其次,根据稀疏矩阵的存储结构设计了一种查询转换方式,将SPARQL查询转化为对应的矩阵计算,并将连接查询算法扩展到GPU上进行加速.为了验证所提出方法的有效性,我们在LUBM数据集和一个半合成的商品数据集上进行了一系列的实验.结果表明,本文提出的方法,不仅在海量商品知识下相对于现有RDF查询引擎在检索效率上有较大提升,而且在通用的RDF标准数据集上也能取得较好的检索性能,并验证了GPU加速查询处理的有效性.  相似文献   

9.
10.
基于术语集规模小、内容稳定、入度高、访问频率高、具有整体性的特性,提出了术语集冗余预处理.在此之上设计了符合海量资源描述框架(RDF)数据集特性的划分框架.与经典多层次图划分算法的对比实验结果表明:引入术语集冗余和边权重因子的划分框架适用于海量RDF划分任务,能够以较小的冗余开销有效地降低边切分,从而为上层计算提供了良好的数据分布管理基础.  相似文献   

11.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式...  相似文献   

12.
针对大数据在线聚集执行时间长、执行性能及延迟调度性能较差的问题,提出基于MapReduce的大数据在线聚集优化程序设计.使用分片聚集方法使集群中所有机器的计算资源得到充分调用,采用子连接的启发式优先方法优化各节点本地执行连接任务关系运算,实现大数据在线聚集的并行连接.利用混合近似查询框架的大数据在线聚集动态切换机制及基...  相似文献   

13.
提出一种基于大规模RDF查询引擎gStore的分而治之方法, 对查询的正则表达式进行划分。在对定长字符串预处理的基础上, 再处理带有通配符的即时路径查询。该方法能够在开始阶段对搜索空间进行大量剪枝, 可以提高查询性能, 还能很好地解决正则表达式在RDF图中的路径匹配问题, 保证了对大规模图数据的支持。在DBpedia和LUBM上的实验表明, 该方法能够平均在秒级时间内返回路径查询结果。  相似文献   

14.
现有的RDF关键词搜索方法主要是在大规模的RDF数据图上直接进行搜索,未能充分利用RDF本体中的语义信息,迭代次数过多造成搜索效率和效果不理想.针对这些问题,借助Redis内存数据库集群,提出分布式RDF关键词近似搜索算法(DKASR),即在分布式平台上实现大规模数据的并行搜索.算法结合RDF本体的语义信息构建本体子图,利用语义评分函数对本体子图进行排序,借助MapReduce计算模型实现并行搜索并返回Top-k结果;如果返回的结果没有达到Top-k,则对本体子图进行扩展生成近似本体子图,使用语义相似度函数对近似本体子图进行排序,再利用MapReduce计算模型实现并行搜索,直到返回Top-k结果.实验结果表明,DKASR算法能够高效正确地实现RDF关键词近似搜索并有效返回Top-k结果.  相似文献   

15.
16.
随着移动社交网络的迅速发展,如何从海量带有时间属性和地理位置属性的短文本信息中快速查询到有效信息具有重要意义.社交网络环境下传统短文本查询算法忽略时间维度,并且在海量数据下无法满足用户快速响应的需求.针对以上问题,提出一种社交网络环境下并行短文本查询算法.提出的算法设计了基于MapReduce模型下的查询框架,该框架使用了基于滑动窗口下的多版本时空索引(MVSTR-tree),保证了查询过程中融合了时间和空间属性,实现了对海量数据高效查询的目标.最后,通过真实数据集的实验证明该算法能有效缩短查询时间.  相似文献   

17.
基于HBase的分布式空间数据库技术   总被引:1,自引:0,他引:1  
针对在大型地理信息系统(GIS)中, 需要对海量矢量据和栅格数据进行存储并对高并发的用户查询请求提供高效响应, 传统的设计方案难以满足需求的问题, 提出一种使用基于内存存储的分布式数据库HBase存储空间数据, 并设计基于GeoHash的分布式空间索引, 实现了矢量空间数据与栅格空间数据的分布式存储与快速查询. 实验表明, 该方法提升了海量空间数据的查询速度.  相似文献   

18.
MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.  相似文献   

19.
针对当前GIS数据种类繁多且数据量大,数据处理效率低等问题,通过分析MapReduce分布式数据处理机制,设计出基于MapReduce技术的WebGIS系统模式。依据当前国际社会对海量空间地理数据的高效处理需求,证明了该架构可用于对地理空间数据处理,提出一套基于地理空间数据的处理方案,该方案适合对地理空间数据进行并发处理,可提高运算效率。  相似文献   

20.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号