首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 0 毫秒
1.
Hadoop分布式文件系统(hadoop distributed file system,HDFS)因其稳定高效、低成本等优势,已被很多大型企业广泛使用.针对HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立H-B+树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标.实现中采用缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节点的内存负载.实验结果表明,基于混合索引的小文件存储策略能有效提高小文件访问效率,并显著降低元数据节点内存开销.  相似文献   

2.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

3.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:2,自引:0,他引:2  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

4.
针对小波变换的性能和扩展性问题,提出基于MapReduce的多维小波变换模型,该模型将多维小波变换的线性处理改造成基于多处理器的并行计算.描述了具体的实现算法和模型设计,通过在Hadoop平台上对该模型进行实验分析,实验结果表明,在多信号的多维小波变换时,使用MapReduce的多维小波变换模型具有良好的执行效率和扩展性.  相似文献   

5.
以山影分析模型为例,探讨了地形分析模型的MapReduce并行化计算方法.基于Apache Hadoop开发了地形数据分析的原型系统,并初步部署形成了地形数据的分布式计算和存储环境.最后,以全国范围90m地形数据对系统进行应用测试,结果表明:基于MapReduce的分布式计算方法能够有效地提升地形数据的计算效率,特别在节点较多时效率提升更为明显.  相似文献   

6.
大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。  相似文献   

7.
常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.  相似文献   

8.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

9.
针对传统甚长基线干涉测量(very long baseline interferometry,VLBI)并行处理方法存在逻辑复杂、数据存储和计算扩展性较差等缺点,基于MapReduce模型设计了一种VLBI观测数据相关的并行处理方法。该方法采用模型周期作为数据并行处理基本单元,构建数据关联算法分割观测数据使各台站同一模型周期数据对齐到同一波前,设计实现数据相关计算的Map过程,使用Reduce对各模型周期结果进行综合处理以得到最终结果。实验结果表明:该方法在积分周期包含的模型周期数量大于节点CPU核数时性能比传统方式低25%左右,在积分周期包含的模型周期数量小于节点CPU核数时通常能提供更高的计算效率,并且能简化VLBI并行相关处理的复杂度,具有更好的数据存储和计算可扩展性。  相似文献   

10.
物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map对各个数据块完成初始聚类,并在Reduce上基于核心点扩展类融合形成最终聚类结果,以此提高大数据应用的效率。通过应用大数据对港口企业进行全面管理,为企业决策提供有效支持。  相似文献   

11.
12.
目前要发展新的入侵检测系统必须解决检测准确性、高效性的问题,同时要考虑分布式智能化的检测方法.提出一种采用基于支持向量机与移动Agent技术的入侵检测系统模型,利用支持向量机对小样本、高维非线性数据良好的分类性能,将其作为检测工具;利用移动Agent的智能性、移动性,在网络节点间进行迁移检测入侵.给出了相应的模型结构.  相似文献   

13.
首先介绍了变电站通信网络和系统协议IEC 61850的背景,接着从信息分层、面向对象的统一建模、数据自描述、抽象通信服务接口四个方面分析了IEC 61850的主要特点,研究了利用IEC 61850对智能电子设备IED建模的方法,并以RSC-902C型光纤纵联距离保护装置为例,进行了逻辑设备逻辑节点-数据对象的具体建模,最后分析了所建模型在变电站通信系统中的应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号