首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着移动社交网络的迅速发展,如何从海量带有时间属性和地理位置属性的短文本信息中快速查询到有效信息具有重要意义.社交网络环境下传统短文本查询算法忽略时间维度,并且在海量数据下无法满足用户快速响应的需求.针对以上问题,提出一种社交网络环境下并行短文本查询算法.提出的算法设计了基于MapReduce模型下的查询框架,该框架使用了基于滑动窗口下的多版本时空索引(MVSTR-tree),保证了查询过程中融合了时间和空间属性,实现了对海量数据高效查询的目标.最后,通过真实数据集的实验证明该算法能有效缩短查询时间.  相似文献   

2.
移动对象轨迹的k近邻(k nearest neighbor trajectories,kNNT)查询是一种重要的空间信息服务,主要用于寻找与给定轨迹最近邻的k条轨迹,被广泛地应用于智能交通、信息推荐等领域。随着轨迹数据量的快速增长,由于单机计算资源的限制,传统集中式环境下的kNNT查询效率和可扩展性无法满足实际要求。为了解决这个问题,设计了轨迹数据的分布式网格索引结构,该索引在Spark环境下将轨迹切分并映射到网格中,并引入轨迹还原表以保留查询时候选子轨迹段间的连续性。基于此索引,提出了Spark环境下的轨迹k近邻查询方法kNNT-Grid。实验结果表明,kNNT-Grid方法在分布式环境下实现了良好的查询效率和可扩展性,能够应对海量轨迹数据的k近邻查询需求。  相似文献   

3.
针对交替最小二乘法(ALS)在处理大数据集时所面临的处理速度和计算资源问题,提出了基于相似用户索引的分布式矩阵分解推荐算法。首先算法基于用户的评分行为找到用户之间的最近邻,然后使用Spark平台运行提出的算法,并产生推荐。在GroupLens网站上提供的MovieLens数据集上进行仿真实验,实验结果表明,提出的算法能够有效解决ALS对于大数据集运行效率低及在云环境中可扩展性较差的问题。  相似文献   

4.
为了解决无线广播环境下空间关键字查询的问题,研究广播环境下空间关键字k近邻查询处理(BkSKQ),设计了一种结合kd树、倒排位图和(1,m)索引机制的空间关键字索引(ISKW)结构,以有效地组织对象的关键字信息、位置信息以及索引信息.该索引结构为客户的查询处理提供有效的指导,使得他们尽可能只下载查询处理所必须的数据信息.在ISKW索引结构的基础上,提出了BkSKQ查询处理算法.最后,通过模拟实验验证了提出的索引结构和算法的性能,实验结果表明所提出方法在访问时间和调谐时间上明显优于基于IR树的方法(BIRM).  相似文献   

5.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

6.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势.  相似文献   

7.
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可以有效减少结点间的数据移动次数,并具有良好的可扩展性.通过该算法在单机环境和集群环境的对比测试,说明该算法适用于大规模数据环境,且算法性能与数据规模成正比,集群环境较单机环境也具有很大的性能提高.  相似文献   

8.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

9.
针对空间文本对象流和订阅流的匹配,采用一种混合索引树来组织数据对象,包括多叉树空间索引、谓词索引和倒排文件三个部分,其中多叉树空间索引用于空间区域管理,谓词索引和倒排文件用于订阅谓词管理.在此基础上,提出了谓词索引建立算法、空间文本对象与倒排项匹配算法和混合索引树检索算法.与基于空间网格加倒排文件的检索方法进行了对比实验,结果表明:所提出的算法提高了用户的检索效率,并验证了其有效性.  相似文献   

10.
根据GML数据查询的需要,在分析XML文档编码和空间索引技术的基础上,提出一种基于扩展的元素区间编码的GML索引方法.首先通过扩展的区间编码方法对GML文档中的元素、属性、文本、几何体等要素进行编码;其次依据元素编码算法并将非空间节点、空间节点、元素节点从GML文档树中分离,产生元素编码序列;在此基础上根据节点类型的不同对属性和文本节点建立B+树索引以实现值查询,对几何体节点建立R树索引以实现空间数据的分析操作,并在查询处理时通过查询优化算法避免不必要的节点的遍历,进一步提高查询效率.实验结果表明,基于元素区间编码的GML数据索引方法是可行的、高效的.  相似文献   

11.
基于HBase的分布式空间数据库技术   总被引:1,自引:0,他引:1  
针对在大型地理信息系统(GIS)中, 需要对海量矢量据和栅格数据进行存储并对高并发的用户查询请求提供高效响应, 传统的设计方案难以满足需求的问题, 提出一种使用基于内存存储的分布式数据库HBase存储空间数据, 并设计基于GeoHash的分布式空间索引, 实现了矢量空间数据与栅格空间数据的分布式存储与快速查询. 实验表明, 该方法提升了海量空间数据的查询速度.  相似文献   

12.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势.  相似文献   

13.
研究无线广播环境下空间网络数据库关键字查询问题,提出一种包含路网加权四叉树、各关键字四叉树和路网距离矩阵的空中索引结构(KSSN).讨论了kNN查询处理问题,提出了高效的查询处理算法.所提出的算法能综合利用路网距离信息和关键字信息高效地消减不存在查询结果对象的路网空间,提高查询处理的效率.KSSN索引结构可推广至其他类型的查询,比如范围查询、Rank查询.在一个真实路网上进行了仿真实验,验证了基于KSSN索引结构的查询处理算法的性能.实验结果表明:所提出算法的访问时间和调谐时间分别为参照的IRRDA算法的25.13%和12.31%.  相似文献   

14.
为解决海量教学数据的高效处理和管理,提出基于HBase/Spark的教学大数据存储及索引模型设计.先基于组合行键构建HBase表,根据教学Course分类进行预分区,并构建cost评分函数,来检测并迁移负载,达到解决数据存储时写热点和负载均衡的问题.语义解析、组合行键索引查询、Spark并行属性条件过滤实现教学大数据高效查询.实验证明基于HBase/Spark的教学大数据的模型,能够实现更加高效的教学大数据访存管理.  相似文献   

15.
针对星型组查询只考虑了用户的位置信息和朋友关系,而没有考虑用户的偏好信息,使得推荐质量不高的问题,本文提出一种基于范围的星型组查询算法(m SG),同时考虑用户的社交关系、文本信息和当前位置信息,在给定范围为用户返回k个得分最高的星型组。为了迅速查找中心点用户,提出带倒排表的网格索引结构。为中心点用户更快速地查找朋友,提出了社交关系和文本信息混合索引结构。最后,通过实验表明,利用所提索引结构减少了查询算法的运行时间。  相似文献   

16.
为了提高移动用户位置预测的精度,提出了基于并行模式挖掘和路径匹配的移动用户位置预测方法,对传统的FP-GROWTH算法作了并行化处理,优化了节点负载分配方法,在Spark平台下挖掘用户移动频繁模式.改进了基于索引的路径相似度算法,提出基于路径最短距离的相斥度算法,提高了对轨迹数据缺失的适用性.在真实的用户轨迹数据集上实验表明,提出的基于轨迹相斥度预测方法相比马尔可夫模型和卡尔曼滤波模型拥有更高的预测精度,预测精确度平均提升7%左右.  相似文献   

17.
针对在密集分析型查询请求和海量数据的应用场景下传统关系型数据库MySQL性能不佳问题,提出了基于窗口函数(Window Function)的分析型查询优化方法,以分区(Partitioning)方法代替传统的分组(Group by)操作,并提出了基于分布式集群(SQL-on-Hadoop:SparkSQL)计算引擎的海量数据查询优化方法,采用内存列存储优化技术和Spark分布式集群计算以提高查询性能.同时,以典型的分析型SQL查询实例验证了其有效性.结果表明,所提出的查询优化方法能够显著提高查询性能.与传统的关系型数据库MySQL相比,基于SparkSQL的查询优化方法的查询速度大幅提高,从而验证了其用于可视化学术搜索系统AceMap数据查询的正确性.  相似文献   

18.
随着空间数据飞速增长,不仅POI(Point Of Interest)越来越密集,而且每个空间点的文本描述也越来越多,以往关键词近似查询算法中,不同长度的关键词需要不同的阈值相匹配,影响查询效率和查询结果.针对以上不足提出了支持空间多子串近似匹配的空间关键词查询算法,在该算法中不需要考虑阈值的改变,而是将编辑距离直接应用到索引结构中.通过真实数据进行实验,表明该算法在查询精准性和查询效率上都有较大的提高.  相似文献   

19.
研究无线广播环境下路网最近邻查询(NBNN)处理方法以及查询处理的性能优化,NBNN查询处理算法利用了路网Voronoi图(NVD图)的特性,提出了一种NVD-TDI可调节分布式索引结构来高效处理NBNN查询.分别用调谐时间和访问时间来表示无线广播环境下查询处理的最主要的2个性能指标(能耗和访问延时).分析认为对于分布式索引而言,底数的取值是影响查询处理的调谐时间和访问时间的因素,并提出了相应的优化方案.实验表明:所提出的算法是高效的,且具有调节和优化访问延时以及能耗的能力.  相似文献   

20.
天区覆盖生成是天文数据归档中的重要一环,其结果对天文数据检索、计算等后续处理流程至关重要.由于天文数据的海量性,应用传统科学计算方法处理这一问题通常耗时较长,效率不高,且受存储空间的制约,扩展性差.为解决这一问题,本文提出了一种基于HEALPix索引和Spark框架的高效分布式天区覆盖生成算法.实验证明:该算法可以在短时间内完成大规模天文数据的天区覆盖生成,为实现海量天文数据的快速归档提供了支持;同时,所生成的结果还可以用于数据可视化,直观地展现星表中的天文数据在天区上的分布情况.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号