首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对对等模式下并行决策树分类算法的通信开销太大,提出了一种基于主从模式的FPM_DT并行决策树挖掘算法,此算法综合使用了横向与纵向的数据划分模型,并采用根据分支数据分布情况进行结点分组的策略.实验结果表明,它与对等模式下并行SPRINT分类算法相比,降低了通信开销,具有更好的可扩展性与加速比性能.  相似文献   

2.
针对传统决策树SPRINT(Scalable Parallelizable Induction of Decision Trees)算法不能处理海量地学数据挖掘的问题, 设计实现了基于G4ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System)的决策树并行分类算法PSPRINT。该算法使用哈希表存储连续属性分割点两侧的数据记录, 为并行节点的分割提供依据, 在MapReduce架构下解决了海量地学数据挖掘问题。实验结果表明, 在模拟的云计算环境下, 决策树并行算法可以处理海量地学数据分类问题, 并获得较好的稳定性和较高的处理速度。  相似文献   

3.
随着互联网的发展和数字图像获取技术的进步,传统图像分类算法在处理海量数字图像时,面临耗时过多、文件系统及处理架构落后的问题.针对这一问题,利用主流的Hadoop开源分布式计算平台,引入视觉词袋模型实现对图像的表示,并对模型的图像直方图化过程做出改进,提出一种自适应的特征分配方法,最后采用易于并行的随机森林算法作为分类器,以充分利用Hadoop平台强大的分布式计算能力.实验显示,基于Hadoop平台的图像分类方法在处理大规模数据集时较单机环境能有效减少时间消耗,同时具有良好的分类效果.  相似文献   

4.
在介绍数据挖掘、分类算法有关概念的基础上,介绍了决策树的具体生成算法.为了减少数据量,改进决策树算法实现时的数据结构,详细描述了基于SPRINT(scalable paraUehzable induction of decision trees)分类算法的实现,给出了SPRINT算法的性能评估。  相似文献   

5.
分类是数据挖掘中重要的研究课题.决策树方法是一种常用的分类算法,所建立的树型结构模型很直观,易于理解.传统的分类方法在处理海量数据时会出现性能下降或精度降低的问题,经过改进的ID3算法,基于SPRINT,消除了内存的限制,运算速度快,具有可伸缩性,性能较好.  相似文献   

6.
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响.本文设计和实现一种基于MapReduce架构的并行决策树分类算法.实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能.  相似文献   

7.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数...  相似文献   

8.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

9.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

10.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

11.
【目的】对现有的下一代测序(Next Generation Sequencing,NGS)纠错算法和工具进行分析,提出基于Hadoop平台的纠错算法,以解决大数据处理中计算机内存不足和运行时间长的问题,提升纠错性能。【方法】使用特定的数据对现有的基于K-spectrum的纠错算法进行测试,对各纠错工具的运行时间、内存峰值和纠错结果进行比较来衡量纠错工具的性能。在此基础上提出Hadoop分布式并行纠错算法(Parallel algorithm),并与串行程序、Lighter和Racer进行比较,分析分布式并行实现的可行性。【结果】现有的基于Kspectrum的纠错工具普遍存在较大的内存消耗现象,其中Racer和Sga的纠错效果较好。而Hadoop分布式并行纠错算法对计算机单机内存的消耗较低,当数据量超过一定值时,并行分布式程序的运算时间比串行单机程序明显减少。【结论】本研究提出的Hadoop分布式并行纠错算法不仅降低了内存消耗,而且提高了运算性能,更有利于大规模基因数据的分析处理。  相似文献   

12.
为了对电力物联网背景下的海量负荷数据进行精细化分析,从中提取用电模式,提出一种基于Hadoop分布式并行计算的混合神经网络分类模型。首先,基于时间维度的一维卷积神经网络(1DCNN)搭建“负荷特征提取器”;其次,使用长短期记忆网络(LSTM)搭建“序列分类器”;最后,将该“混合神经网络分类方法”在Hadoop平台上搭建,实现算法的并行化运行,以适用于海量负荷曲线的高效辨识。使用标准时序数据与真实负荷数据测试该方法的分类性能,算例结果表明所提分类方法具有较高的分类精度,经并行化处理后有效提高了负荷数据的处理效率。  相似文献   

13.
针对单机环境下图像检索算法存在的计算瓶颈问题,提出1种基于Hadoop平台Map-Reduce框架的图像检索改进算法.首先利用云存储和分布式算法的优点,对图像检索算法进行并行化设计,然后通过改进的K-Means和Bo F算法,对原有图像检索算法进行优化,提高检索效率和准确性.实验结果表明,提出的方法能够很好地提高图像检索算法的执行速度,同时获得较好的图像检索准确性.  相似文献   

14.
针对传统决策树分类算法在多数据流分类的正确率和处理速度存在的不足,提出了一种基于基因表达式编程(GEP)的多数据流分类并行算法,以提高多数据流分类的正确率和处理速度.根据GEP在数据分类上的优势,运用GEP原理和数据流段中分类目标相似属性合并构造多数据流分类算法,并对多数据流分类算法进行并行设计与分析,在多核PC上进行对比实验.实验结果表明:该串行与并行分类算法均优于传统算法,且在多样本上具有较好的加速比.  相似文献   

15.
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型.  相似文献   

16.
针对大气污染物质量浓度预测及其大规模数据计算问题,设计了一种基于随机森林算法的污染物质量浓度预测算法,采用MapReduce并行计算框架并行化计算空气质量指数,实现了基于Hadoop平台的空气污染物质量浓度预测系统.通过试验比较了基于随机森林算法和基于线性拟合算法的计算结果,显示本算法能够有效降低大气污染物质量浓度的预测误差.  相似文献   

17.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

18.
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.  相似文献   

19.
为提高传统协同过滤算法在个性化推荐系统中的大数据处理能力,研究了一种基于模糊聚类的并行推荐算法。在Hadoop平台下首先通过PCA降维和FCM聚类对用户物品评分矩阵进行预处理,采用皮尔逊相关系数计算用户间的相似度,通过得到的聚类簇集合构建最近邻集合,生成基本预测评分。最后实现算法的并行化处理并得到推荐结果。实验结果表明,与基于PCA降维的协同过滤和单机式传统协同过滤算法相比,该算法提高了推荐的准确性和实时性。  相似文献   

20.
杨宏宇  孟令现 《北京理工大学学报》2017,37(10):1031-1035,1042
为解决现有Hadoop云平台访问控制缺乏动态性的问题,提出一种基于用户行为评估的Hadoop云平台动态访问控制模型(DACUBA).该模型采用指令序列学习(CSL)算法从用户指令序列中提取用户行为模式,利用全局模式库对用户行为进行分类并对分类结果进行行为评估,然后将评估值应用于Hadoop云平台的访问控制机制中实现动态访问控制.验证实验结果证明了DACUBA的有效性,与其他方法相比,该方法对云请求的访问控制效率较高,且稳定性较好.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号