首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对气象数据挖掘和ARIMA预测算法进行分析,构建了基于Hadoop的气象数据挖掘平台,并在该平台上设计实现了基于ARIMA算法的气象预测系统.实验结果表明,该气象预测系统具有易扩展性、易维护性和对海量气象数据的高效管理特性,实现了气象预测功能.  相似文献   

2.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

3.
关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原FP-Growth算法相比,BPFP算法具有更高的执行效率、更好的加速比.  相似文献   

4.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

5.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

6.
常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.  相似文献   

7.
为解决医疗数据的高效存储与处理分析等问题,设计并开发了医疗大数据平台.首先,搭建并部署了Hadoop分布式文件系统,设计基于Tomcat服务器搭建的网站平台.然后,通过编写Hadoop WEB API将WEB服务器与分布式文件系统相结合,设计数据处理效率高的Python脚本程序读取并统计分析医疗数据.平台运行测试结果表...  相似文献   

8.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

9.
以云计算和大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。  相似文献   

10.
为了优化BIM云平台的数据分类,提高处理效率,提出一种使用MRU算法对用户常用数据进行分类处理的策略.详细论述了实现的过程以及关键技术.实验表明,使用该方法处理数据,比使用传统Hadoop方法处理数据,所需的时间明显减少,能够提高BIM云平台数据分类与处理的效率.  相似文献   

11.
几千年来,中医药领域的无数临床实践与理论研究积累了很多对哮喘病的治疗方剂,已有的基于距离的聚类算法在对哮喘方剂数据的聚类上不太有效.根据哮喘药方数据集高维稀疏性的特点提出一种基于最大频繁项集的层次聚类算法,此算法在哮喘方剂的聚类上取得了较好的效果.基于现有中药数据,设计并实现一个中药方剂数据挖掘平台,该平台将中药数据检索功能和中药数据挖掘功能集成起来,带来了极大的便利.  相似文献   

12.
为提高Hadoop云计算平台的性能,该文提出了一种跨层的参数优化模型.首先分析了云计算平台的工作流程,将系统参数与流程对应,并加入基础设施即服务与平台即服务层的参数,找出对Hadoop集群效率作用显著的参数,并把这些参数值作为性能参数,构建成性能参数模型,再用启发式蚁群算法搜寻性能较优的可行参数,并不断修正,找出最佳参数组合,最后整合跨层的参数来提高Hadoop云计算平台的性能.实验表明,该算法可行,性能优良.  相似文献   

13.
在对HITS算法和基于MapReduce编程模型的云计算框架Hadoop的研究基础上,利用Hadoop来重新设计并实现HITS算法.同时,在实验中分析了不同blocksize和集群规模对算法执行效率的影响.实验表明:当blocksize过大时,由于没有充分利用集群的并行特性,算法效率逐渐降低,而适当扩大集群规模,算法运行效率会逐渐提高.  相似文献   

14.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

15.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

16.
针对传统的故障诊断方式已经不能满足风电故障系统实时性、准确性的要求,提出了基于Hadoop框架,并结合粗糙集属性约简以及Apriori算法共同处理分析风电机组监测数据,进而实现快速、准确地诊断风机故障的方法:首先利用属性约简减小数据规模,剔除冗余属性项;之后通过MapReduce框架改进Apriori算法,提高数据挖掘效率,降低时间和空间复杂度.实验表明:该算法在保证诊断准确率的前提下,具有良好的性能,也证明了该算法的有效性和可行性.  相似文献   

17.
为了有效提高动车组滚动轴承故障的发现率,减少故障监控系统的误报现象,基于Apache Hadoop大数据平台对经典Apriori算法进行改进,并将其应用于动车组滚动轴承故障的预测研究工作中。首先,针对经典Apriori算法的不足,在MapReduce框架下提出以业务经验为约束的改进的Apriori算法。其次,基于文中提出的改进的Apriori算法对某铁路局的动车组状态、故障预警、维修历史等信息进行深度数据挖掘,并通过得出的关联规则进行动车组滚动轴承故障的预测。实验结果表明,文中提出的算法准确率达72%,减少了80%以上的误报报警信息,在实验环境中运算效率较传统的Apriori算法提高了50%。  相似文献   

18.
提出了一种基于蚁群与遗传算法融合的自适应作业调度机制,将遗传算法全局收敛、快速搜索的优点与蚁群算法正反馈、高求精率的优势相结合,以变异策略来加快局部寻优,提高收敛速度.实验结果表明本文算法可快速找到最适合当前作业的节点,有效提高Hadoop集群作业调度的效率.  相似文献   

19.
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。基于Hadoop平台研究并实现了几种高效的排序算法,包括:Radix sort,Quicksort和Sample sort算法。对各个排序算法的执行效率、CPU资源的消耗,内存的消耗,以及处理机间的通信量进行了研究和比较分析。通过大量运行在Hadoop上的实验,发现Hadoop平台上的Sample sort相较于Radix sort和Quicksort具有排序速度快,负载均衡度高,CPU消耗低等优势。这一结果为云计算环境下设计更高效、节能的算法提供了有效的依据和基础。  相似文献   

20.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号