共查询到15条相似文献,搜索用时 45 毫秒
1.
随着维度和数据量的不断增长,已有的轮廓查询方法已无法为用户提供更好的查询支持.本文采用并行处理框架MapReduce 结合k-支配轮廓查询算法来解决此类查询问题.在对输入的数据集进行预排序的基础上,提出了基于MapReduce 的单轮扫描算法和双轮扫描算法,通过在不同维度、数据分布、节点个数等方面的实验测试及对比,验证了算法的有效性. 相似文献
2.
当前的大规模数据分析通常在MapReduce框架下执行查询,由于MapReduce框架本身的冗余性以及查询之间的重叠性,复用已有查询的结果可以大幅提高查询的执行效率。复用查询的结果需要对其进行存储和匹配管理,产生高昂的系统开销,抵消复用的部分效果。针对目前先进的查询结果复用系统Re Store在管理查询结果和匹配中存在的效率低下的问题,提出森林结构的Job存储管理技术和与之相适应的匹配算法,提高查询的匹配效率,减少系统的开销。为了使系统能够充分复用已执行查询的结果,提出对多个查询进行预处理的方案;通过改变各查询进入Pig编译器进行编译的顺序,从而改变Job的执行顺序,使得加载相同数据集的Job同时执行,减少与存储库进行匹配的次数。实验表明,在构建存储结构与匹配已有结果过程中,提出的方法与Re Store相比,节约16.3%的时间开销,伸缩性也更好。 相似文献
3.
为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机梯度下降法的线性回归模型.首先,为清理智能配电终端产生的重复数据和不良数据,提出利用自适应近邻排序算法清除重复记录的数据,并利用K均值聚类的方法剔除异常数据和记录不完整的数据,然后利用F检验... 相似文献
4.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询. 相似文献
5.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势. 相似文献
6.
大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原理与优缺点,并对这些算法的进一步优化进行了分析。 相似文献
7.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 相似文献
8.
针对云计算环境下很难确定出有助于实现良好性能的Hadoop参数集的问题,设计了一种MapReduce模拟器.首先,对Hadoop的各种参数进行建模;然后,集群读取元件从集群中读取参数,从而创建模拟的Hadoop集群环境;最后,利用作业跟踪器跟踪模拟的作业,并利用任务跟踪器运行单个任务.所设计的模拟器从多角度研究Hadoop应用的性能,集中模拟Hadoop的映射和化简行为,弥补了MRPerf设计的不足.在基准测试结果和用户自定义MapReduce应用中验证了模拟器的有效性. 相似文献
9.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统. 相似文献
10.
11.
针对传统的并行哈希划分算法不能高效地利用多核处理器的并行资源,且不能较好处理有倾斜的输入数据的问题,提出了一种在多核处理器中基于MapReduce的哈希划分算法,并且提出了存储结构优化、多步划分优化、数据倾斜优化3种优化策略。该算法将输入数据分成若干块后提交给各个线程并行处理,并选择合适的策略避免写冲突,使其能够高效地利用多核处理器的并行资源。文中提出的哈希表能够提高cache效率,从而提升算法的整体性能。引入MapReduce模型可使多步哈希划分在Map过程和Reduce过程中分别进行;数据倾斜优化策略能使算法适应有倾斜的输入数据,且具有较好的效果。实验结果表明:在多核处理器中,文中提出的算法能够适应各种分布的输入数据,并且使哈希划分的整体性能得到提升。 相似文献
12.
The performance of existing diffusion-based algorithms in recommender systems is still limited by the processing ability of a single computer .In order to conduct the diffusion computation on large data sets, a parallel implementation of the classic diffusion method on the MapReduce framework is proposed.At first, the diffusion computation is transformed from a summation format to a cascade matrix multiplication format , and then , a parallel matrix multiplication algorithm based on dynamic vector is proposed to reduce the CPU and I/O cost on the MapReduce framework , which can also be applied to other parallel matrix multiplication scenarios .Then, block partitioning is used to further improve the performance , while the order of matrix multiplication is also taken into consideration . Experiments on different kinds of data sets have verified the efficiency of the proposed method . 相似文献
13.
梅清银 《科技情报开发与经济》2009,19(29):79-82
介绍了开源框架Struts2,Spring和Hibernate(SSH),探讨了SSH框架的整合优势及整合中的关键点,阐述了SSH框架在气象数据共享中的应用。 相似文献
14.
农业信息服务体系研究 总被引:5,自引:1,他引:4
农业信息化是农业现代化的基础,目前农业信息服务主体多元化,服务形式多样。针对农业信息服务的理论及应用现状,比较分析了国内外典型的农业信息服务构成,提出了农业信息化服务系统的体系结构,讨论了农业信息化服务体系的构成要素,对于构建农业信息化标准和工程实施规范具有一定的参考价值。 相似文献
15.
《云南民族大学学报(自然科学版)》2017,(4):310-312
提出了一种在异构MapReduce集群中的能效优化管理策略.基于数据中心服务器节点的数量、性能参数运行时间等估算出任务调度的响应时间,设计了一种启发式的任务调度算法,可以很好地满足能效优化的目标. 相似文献