首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了高效地分析挖掘新浪微博社交网络信息传播过程中的关键节点,以Hadoop云计算系统作为存储和处理平台,在X-RIME大规模社会网络分析工具开源框架基础上,针对社交网络中使用HITS(hypertext induced topic selection)链接分析算法挖掘关键节点时,未能体现节点和连接的社会属性问题进行改进.新算法充分考虑了社交网络节点和边的社会属性,对HITS算法节点和边的社会属性权值进行优化计算,提出适合社交网络特点的加权HITS算法.通过Hadoop云平台分别运行加权HITS算法和传统HITS算法对新浪微博社交网络数据进行分析.实验结果表明,加权HITS算法比传统HITS算法具有更高的执行效率和结果区分度,加权HITS算法更适合于大规模社交网络信息传播过程中关键节点的分析挖掘.  相似文献   

2.
常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.  相似文献   

3.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

4.
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个方面得到了有效提高。  相似文献   

5.
针对在Hadoop分布式文件系统中,系统默认的数据负载均衡算法在做负载均衡决策时只根据磁盘空间使用率这单一的衡量指标无法准确反映集群中各服务器实际的工作负载状况这一缺陷,通过研究和分析Hadoop分布式文件系统本身的负载均衡机制和在其基础上改进的负载均衡算法,本文提出了一种基于多衡量指标的负载均衡方法,定义了一个衡量指标函数,然后根据该函数计算集群中各数据服务器的负载量来对集群进行负载决策.最后通过实验结果表明,该方法有效地提高了Hadoop分布式文件系统中的负载均衡效果.  相似文献   

6.
为提高Hadoop云计算平台的性能,该文提出了一种跨层的参数优化模型.首先分析了云计算平台的工作流程,将系统参数与流程对应,并加入基础设施即服务与平台即服务层的参数,找出对Hadoop集群效率作用显著的参数,并把这些参数值作为性能参数,构建成性能参数模型,再用启发式蚁群算法搜寻性能较优的可行参数,并不断修正,找出最佳参数组合,最后整合跨层的参数来提高Hadoop云计算平台的性能.实验表明,该算法可行,性能优良.  相似文献   

7.
提出了一种基于蚁群与遗传算法融合的自适应作业调度机制,将遗传算法全局收敛、快速搜索的优点与蚁群算法正反馈、高求精率的优势相结合,以变异策略来加快局部寻优,提高收敛速度.实验结果表明本文算法可快速找到最适合当前作业的节点,有效提高Hadoop集群作业调度的效率.  相似文献   

8.
针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善.  相似文献   

9.
一种更稳定的链接分析算法〖CD2〗子空间HITS算法   总被引:8,自引:0,他引:8  
在给定超链接情况下, Kleinberg的HITS算法采用特征向量的办法来确定页面的权威性等级. 通过分析当链接模式发生小的变化时算法的稳定性, 提出一种新的算法——子空间HITS算法, 并通过Web超链接数据作为实验数据对其性能进行研究.  相似文献   

10.
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率.  相似文献   

11.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

12.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

13.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

14.
针对Delay算法的不合理等待问题, 提出一种基于资源预测的Delay调度算法(RFD), 该算法基于对资源可用性的预测方法合理地调度作业. 实验结果表明, 在Hadoop机群一般应用场景下, 该调度算法与已有算法相比, 在保证作业本地化计算Map任务比例相近的同时, 将作业平均运行效率提高28.8%, 明显提高了Mapreduce作业的执行效率.  相似文献   

15.
针对云计算环境下很难确定出有助于实现良好性能的Hadoop参数集的问题,设计了一种MapReduce模拟器.首先,对Hadoop的各种参数进行建模;然后,集群读取元件从集群中读取参数,从而创建模拟的Hadoop集群环境;最后,利用作业跟踪器跟踪模拟的作业,并利用任务跟踪器运行单个任务.所设计的模拟器从多角度研究Hadoop应用的性能,集中模拟Hadoop的映射和化简行为,弥补了MRPerf设计的不足.在基准测试结果和用户自定义MapReduce应用中验证了模拟器的有效性.  相似文献   

16.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

17.
Hadoop是一个由Java语言实现的软件框架,在一个计算机集群中对海量数据进行分布式计算,这个集群可以支持上千个节点和PB级别的数据.HDFS是专门为Hadoop设计的分布式文件系统,作为Hadoop最基本的构成元素,保证内容的完整性与可用性.但是HDFS的操作界面并不友好,必须通过命令行或者IDE插件来实现对文件的操作.在研究HDFS的架构的基础上,设计实现了基于WEB的HDFS可视化文件访问系统.  相似文献   

18.
应毅  任凯  曹阳 《科学技术与工程》2013,13(5):1205-1209
基于单一服务器的Web挖掘系统在处理海量数据集时计算能力不足,针对该问题,提出了一种基于云计算的挖掘方法。将大数据集和挖掘任务分解到多台计算机上并行处理。实现了一个基于Hadoop开源框架的并行Web挖掘平台,同时提出了一种改进的MapReduce模型——MapReduce-LP。并通过对电子商务系统中Web日志的挖掘工作验证了系统的有效性和新模型的高效性。实验表明,在集群中使用云计算技术处理大数据集,可以明显提高挖掘效率。  相似文献   

19.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

20.
基于Markov链的云平台故障模型与分析   总被引:1,自引:1,他引:0  
云平台中节点数量增加到一定规模后,系统故障率上升,性能不再相应提高。以Hadoop平台为研究对象,建立了基于节点状态Markov链的云平台故障模型,利用该模型对故障导致的云平台扩展瓶颈进行分析,确定了在系统容错负载率限制下的系统最大节点数变化率,在理论上证明了该模型的正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号