首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
物联网数据挖掘处理的是海量数据,当前数据挖掘的一个研究热点就是在大规模数据集中快速有效地提取用户所需的信息。对传统Apriori算法做相应的改进,使得检索出全部的频繁项集,只要对事务数据库进行一遍扫描就可以完成,将该Apriori算法进行Map/Reduce化,利用云计算的分布式并行计算的性质,将其应用到基于云计算的物联网数据挖掘,实验验证了改进的Apriori算法的有效性。  相似文献   

2.
本文从减少I/O时间的角度出发,结合云计算Hadoop平台的Map Reduce模型,提出了一种基于Map Reduce的关联规则挖掘算法.算法采用幂集计算候选项集,采用Map Reduce模型在多个节点上并行找出所有频繁项集,只需要扫描事务数据库1次.实验结果表明:在事务的平均项长较小的情况下,算法具有很好的加速比和数据规模增长性.  相似文献   

3.
提出了一种基于处理时间的Map/Reduce动态均衡调度算法.在该算法中,为参与计算的各节点建立处理总时间指标;当节点的子任务返回时动态更新当前节点的处理时间,并按照最小处理总时间来选择子任务处理的节点.实验证明:该算法不仅减少了节点与云中心服务器的负载信息传递,而且充分利用了各计算节点的处理能力,提高了Map/Reduce调度效率,对于提升云计算服务的质量具有十分重要的理论意义.  相似文献   

4.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

5.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

6.
结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系统GFS和HDFS,最后从宏观角度阐释了云计算虚拟化技术的三层部署架构和基本类型。  相似文献   

7.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

8.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

9.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

10.
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号