首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
为了解决大数据的深度挖掘和即时查询的需求,建立了一个分布式、可伸缩、低成本和大容量的并行计算集群,实现了半结构化数据的SQL查询分析,并提供了标准对外接口。  相似文献   

2.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

3.
物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map对各个数据块完成初始聚类,并在Reduce上基于核心点扩展类融合形成最终聚类结果,以此提高大数据应用的效率。通过应用大数据对港口企业进行全面管理,为企业决策提供有效支持。  相似文献   

4.
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务.  相似文献   

5.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

6.
李绛绛 《科技信息》2014,(1):105-106
通过对云计算平台相关技术的分析研究,结合目前智能推荐系统的应用情况,采用Hadoop、Mahout、Sqoop以及Oozie等云计算相关技术构建一个海量数据智能推荐系统。与传统的数据存储处理相比,可以提高资源的利用率,降低成本,同时也保证了速度。  相似文献   

7.
针对最大最小值原则的Kmeans聚类算法运行在Hadoop平台时需要多次遍历所有数据的问题,提出了一种改进的初始聚类中心的选择算法称为M+Kmeans算法。该算法只需要遍历一次全局数据极大的缩减了算法并行运算时消耗的时间。多组实验测试结果显示,设计的M+Kmeans算法适合运行在大规模集群Hadoop平台上,并且加速比和扩展率较原始算法有明显提高。  相似文献   

8.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

9.
Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以Hadoop为基础,借助虚拟机VMware以及Linux、ubuntu、Hadoop、java--jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了虚拟机、java、Hadoop等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提出了在搭建试验平台时应该注意的用户权限、路径配置和使用SSH服务程序等问题。该试验平台为系统中间件和应用服务的开发提供了基础。  相似文献   

10.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

11.
大数据时代的诞生,为解决挖掘海量数据存储的信息带来了技术上的革命,通过网站点击存留的日志数据,分析这些数据,可获知许多对网站运营至关重要的信息。本文采用Hadoop分布式平台,使用HDFS数据存储,利用Hive来分析日志数据,设计一种Web日志分析系统,并阐述了系统的设计过程。  相似文献   

12.
在智能电网环境下,录波数据具有广域、全景、海量和可靠的特征,传统的存储硬件采用磁盘阵列,数据库管理软件采用关系数据库系统的方法由于系统扩展性差、成本高、可靠性低,难以适应要求。本文提出了一种基于Hadoop的录波数据分布式存储与访问的新方法,并将其与传统方法的访问速度进行了对比,证明了新方法的高效性。  相似文献   

13.
 石油勘探开发精度的不断提高,促进了低频可控震源、宽频带、宽方位、高密度和高效采集技术的推广应用,石油地震勘探已进入了大数据时代,对质量监控、数据处理、数据安全存储和管理带来了新的挑战。本文分析了石油地震勘探大数据的特点,阐述了中国石化基于Hadoop分布式大数据处理系统研发的π-Frame地震数据处理解释软件平台基本构架,举例说明了该平台在石油地震勘探大数据中的应用,对其发展前景进行展望。  相似文献   

14.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

15.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

16.
17.
公共空间模式(CSP) 分析由于具有变换简单、实现快速等优点,被广泛应用于信息挖掘、脑电信号处理等大数据处理应用中.本文以基于脑电信号的人类认知状态分类识别为背景,研究一种基于Fisher 分数(Fscore)的特征评价与选择的CSP 构建方法.利用F-score 计算代价小、可以快速从高维数据中选择出有效信息和特征的优点,实现了对模式重要程度做出定量的表达;针对F-score 阈值确定困难、信息冗余、无法自适应实现等难点问题,提出了相应的解决方法.所提出方法在脑认知活动解析实验中,针对五类认知状态分类问题取得了92%的识别准确率.本方法为大数据的公共模式挖掘等问题供了一个强有力的新工具.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号