首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

2.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

3.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数...  相似文献   

4.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

5.
为了优化BIM云平台的数据分类,提高处理效率,提出一种使用MRU算法对用户常用数据进行分类处理的策略.详细论述了实现的过程以及关键技术.实验表明,使用该方法处理数据,比使用传统Hadoop方法处理数据,所需的时间明显减少,能够提高BIM云平台数据分类与处理的效率.  相似文献   

6.
针对大数据图像分类耗时长、 实时性差等问题, 利用云计算技术的优点, 以获得理想的大数据图像分类结果为目标, 提出一种基于Hadoop平台的大数据图像分类机制. 首先收集大量的图像, 构建图像数据库, 并提取图像分类的有效特征; 然后基于Hadoop平台, 采用Map函数对大数据图像分类问题进行细分, 用多节点并行、 分布式地对子问题进行图像分类求解, 得到相应的图像分类结果; 最后利用Reduce函数对子问题的图像分类结果进行组合, 并用VC++6.0编程实现大数据图像分类的仿真模拟测试. 测试结果表明, 该分类机制较好地克服了当前图像分类机制存在的弊端, 大幅度缩短了图像分类的时间, 分类速度可适应大数据图像分类的在线要求, 且图像分类的整体效果明显优于当前其他图像分类机制.  相似文献   

7.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

8.
杨宏宇  孟令现 《北京理工大学学报》2017,37(10):1031-1035,1042
为解决现有Hadoop云平台访问控制缺乏动态性的问题,提出一种基于用户行为评估的Hadoop云平台动态访问控制模型(DACUBA).该模型采用指令序列学习(CSL)算法从用户指令序列中提取用户行为模式,利用全局模式库对用户行为进行分类并对分类结果进行行为评估,然后将评估值应用于Hadoop云平台的访问控制机制中实现动态访问控制.验证实验结果证明了DACUBA的有效性,与其他方法相比,该方法对云请求的访问控制效率较高,且稳定性较好.   相似文献   

9.
基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入"最大最小化原则"确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.  相似文献   

10.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

11.
针对目前数字图像采集传输过程中因受环境干扰出现低像素的图像,导致图像重建效果较差的问题,提出了基于多尺度残差的数字图像超分辨率重建算法。首先,采用双边滤波算法完成数字图像的去雾处理;其次,分类数字图像的亮度特征信息和色彩信息,采用距离阈值去噪方法分别对其进行去噪处理;并且设置多个尺寸的卷积核,将其引入图像特征提取过程中,获取数字图像特征,对其展开反向投影操作,在残差学习思想的基础上连接升采样和降采样过程提取的特征,实现数字图像超分辨率重建。实验结果表明,所提算法对图像重建的结构相似度高、峰值信噪比(PSNR:Peak Signal-to-Noise Ratio)高、重建效果好。  相似文献   

12.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

13.
针对FP-Growth算法在大规模数据环境下存在挖掘效率低和占用内存大等问题,提出在分布式计算框架Hadoop的MapReduce编程模式下实现FP-Growth算法并行化处理.结果表明,在相同数据量下,通过负载均衡的并行化FP-Growth算法,加速比呈线性增大,具有良好的加速比和可扩展性,且随着数据量增大,算法效率明显提高.  相似文献   

14.
常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.  相似文献   

15.
针对单机环境下图像检索算法存在的计算瓶颈问题,提出1种基于Hadoop平台Map-Reduce框架的图像检索改进算法.首先利用云存储和分布式算法的优点,对图像检索算法进行并行化设计,然后通过改进的K-Means和Bo F算法,对原有图像检索算法进行优化,提高检索效率和准确性.实验结果表明,提出的方法能够很好地提高图像检索算法的执行速度,同时获得较好的图像检索准确性.  相似文献   

16.
石丽 《科技信息》2014,(13):74-75
BP神经网络分类方法是一种新的模式识别方法,在遥感图像分类识别处理中有良好的应用前景。本文在阐明标准BP算法及其改进算法——Levenberg-Marquardt算法的基础上,介绍了BP神经网络的遥感图像分类过程,并在MATLAB平台下对基于BP神经网络的分类算法进行了试验。实验结果表明基于BP神经网络的遥感图像分类方法是一种有效的图像分类方法。  相似文献   

17.
一种自适应最大相关性数字图像插值算法   总被引:7,自引:0,他引:7  
提出了一种基于图像多方向最大相关性的数字图像插值算法.数字图像插值过程中不可避免会产生图像细节模糊和边缘锯齿化.同时在处理视频信号时要求有较低复杂度以满足实时信号处理.针对以上问题和要求.本根据图像空域内邻近像素点多个方向的内容相关性和几何相似性.得到一种基于图像最大相关性的自适应优化插值算法.该算法能有效解决插值后图像的锯齿效应及边缘模糊等问题.实验结果表明.该方法插值后的图像信噪比性能明显优于双线性方法.插值倍率较小时接近两次立方法.随着插值倍率增大性能也优于两次立方法.且计算量不大.经适当改进后可以用于实时视频信号处理.  相似文献   

18.
逻辑回归和线性支持向量机是解决大规模分类问题的有效方法,然而它们的分布式实现问题到现在也没有得到更好的研究.近年来,由于分布式计算框架在迭代算法中低效率性的原因,一种基于内存的集群计算平台Spark已经被提出来,并正在成为应用于大规模数据处理和分析的一个普遍框架.在本研究中,使用了新拟牛顿方程用于解决逻辑回归以及线性支持向量机的问题,并且在Spark框架中进行了实现.实验表明该方法显著提高了大规模分类问题的准确性和效率.  相似文献   

19.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

20.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号