首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

2.
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.  相似文献   

3.
增量学习是处理数据流的有效方式。文中针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的不足,提出了一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。该增量分类模型主要基于选择性集成学习思想,设计相应Map函数对不同时刻的增量样本块进行学习,以及设计Re-duce函数对不同时刻的分类器进行选择性集成以实现云计算平台上的增量学习。仿真实验表明该方法具有更好的性能,且能较好地解决数据流中的概念漂移问题。  相似文献   

4.
基于视觉原理的分类算法   总被引:1,自引:0,他引:1  
从一种新的基于生物视觉原理的观点,提出了一种新的数据分类算法.将数据集看作图像,利用高斯导函数进行特征提取,并用提取出来的特征计算数据的局部结构,在此基础上设计各向异性感受野函数,最后根据各向异性的核函数构造出分类决策函数.在标准测试集上的实验表明:所提出的算法与支持向量机算法分类正确率相当,同时具有更高的训练速度;与Parzen窗分类算法相比,尽管训练速度相对较慢,但分类精度明显提高,很好地综合了分类算法对训练速度和分类精度的要求.  相似文献   

5.
随着互联网的发展和数字图像获取技术的进步,传统图像分类算法在处理海量数字图像时,面临耗时过多、文件系统及处理架构落后的问题.针对这一问题,利用主流的Hadoop开源分布式计算平台,引入视觉词袋模型实现对图像的表示,并对模型的图像直方图化过程做出改进,提出一种自适应的特征分配方法,最后采用易于并行的随机森林算法作为分类器,以充分利用Hadoop平台强大的分布式计算能力.实验显示,基于Hadoop平台的图像分类方法在处理大规模数据集时较单机环境能有效减少时间消耗,同时具有良好的分类效果.  相似文献   

6.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

7.
杨宏宇  孟令现 《北京理工大学学报》2017,37(10):1031-1035,1042
为解决现有Hadoop云平台访问控制缺乏动态性的问题,提出一种基于用户行为评估的Hadoop云平台动态访问控制模型(DACUBA).该模型采用指令序列学习(CSL)算法从用户指令序列中提取用户行为模式,利用全局模式库对用户行为进行分类并对分类结果进行行为评估,然后将评估值应用于Hadoop云平台的访问控制机制中实现动态访问控制.验证实验结果证明了DACUBA的有效性,与其他方法相比,该方法对云请求的访问控制效率较高,且稳定性较好.   相似文献   

8.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

9.
图像分类作为图像处理和计算机视觉的重要组成部分,能够快速准确地对数字图像进行分析和管理.对基于bag of word(BOW)模型的分类问题进行了研究,针对图像理解中的图像相似度之间的关系,提出了一种最大间隔最近邻居分类算法,通过对成对约束的度量学习算法,在优化目标中增加原空间数据分类的约束,学习到了一个可以反映当前样本数据的距离函数,并且在k-Nearest Neighbor(KNN)分类器上使用该学习到的距离函数来构建分类器,并在多个国际标准图像数据集上进行实验,结果表明:该算法相比传统的基于欧式距离的算法具备更高的正确率.  相似文献   

10.
为解决医疗数据的高效存储与处理分析等问题,设计并开发了医疗大数据平台.首先,搭建并部署了Hadoop分布式文件系统,设计基于Tomcat服务器搭建的网站平台.然后,通过编写Hadoop WEB API将WEB服务器与分布式文件系统相结合,设计数据处理效率高的Python脚本程序读取并统计分析医疗数据.平台运行测试结果表...  相似文献   

11.
针对细粒度图像分类中数据分布具有小型、非均匀和不易察觉类间差异的特征,提出一种基于注意力机制的细粒度图像分类模型.首先通过引入双路通道注意力与残差网络融合对图像进行初步特征提取,然后应用多头自注意力机制,达到提取深度特征数据之间细粒度关系的目的,再结合交叉熵损失和中心损失设计损失函数度量模型的训练.实验结果表明,该模型在两个标准数据集102 Category Flower和CUB200-2011上的测试准确率分别达94.42%和89.43%,与其他主流分类模型相比分类效果更好.  相似文献   

12.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

13.
一种基于相容信息粒原理的图像分类方法   总被引:2,自引:1,他引:1  
首先,通过分析研究相容信息粒和相容粒度空间,提出了一种基于相容粒度空间的多层次规则产生方法;其次分析研究多层次图像特征并生成相应的图像特征信息粒,构建了图像相容粒度空间;再次,将相容信息粒的多层次规则产生方法应用于图像相容粒度空间中实现图像的分类;最后对图像数据集进行了测试,并与其他方法进行了对比.测试和对比结果说明了所提出的方法是可行的和有效的.  相似文献   

14.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

15.
随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注.如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题.本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法.对不同硬件配置的Hadoop集群,选取CPU密集型和L/0密集型任务进行效能测试与评价.由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义.  相似文献   

16.
近些年,基于深度学习的算法和模型在各种图像分析任务中都取得了显著的成功,与常见的自然图像相比,医学图像数据集依然面临高度不平衡的问题,不平衡数据会导致特征空间里的决策边缘倾向样本多的类别,导致分类效果的下降.为了解决该问题,提出一种基于卷积神经网络考虑特征类内紧凑性的不平衡医学图像分类方法(Z-Score Compactness-based Convolutional Neural Network,ZC3NC).首先,从一个卷积神经网络的最后一层卷积层提取训练集样本与测试集样本的特征图,随后引入一个新的Z分数来度量测试集数据的特征图相对训练集每个类在特征空间上的偏离度,偏离度的度量基于类内的紧凑度,其主要关注样本的分布特性,对各类样本数量的不平衡性不敏感.最终,根据计算的偏离度,对测试集的数据进行分类.在DermaMNIST数据集上的实验表明,在不对数据和神经网络模型做任何额外增强的情况下,该方法的平衡准确率比原卷积神经网络模型平均提高11.15%,最多提高14.08%,证明提出的分类方法能有效地提高多种卷积神经网络对不平衡医学图像数据的分类性能.此外,和最先进的不平衡分类方法 Und...  相似文献   

17.
基于支持向量机的遥感图像分类研究   总被引:5,自引:0,他引:5  
支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习算法.通过解算最优化问题,在高维特征空间中寻找最优分类超平面,从而解决复杂数据的分类及回归问题.将支持向量机理论应用到遥感图像分类的研究还处在初级阶段,传统分类算法应用于遥感图像分类存在运算速度慢、精度比较低和难以收敛等问题.从支持向量机基本理论出发,建立了一个基于支持向量机的遥感图像分类器.用遥感图像数据进行实验,并将结果与其它方法的结果进行了比较分析.实验结果表明,利用SVM进行遥感图像分类的精度明显优于神经网络算法和最大似然算法分类精度.  相似文献   

18.
为了对灾难场景图像进行快速分析和识别,提出了一种基于多分辨率卷积神经网络和残差注意力机制(attention module)相结合的图像分类模型.首先,对灾难场景数据集进行预处理,在相同类型的条件下将其随机划分为训练集和测试集.基于改进的卷积神经网络(convolutional neural network,CNN),提取训练集的图像特征.使用训练集图片的特征进行训练,并且在测试集图片上实现分类测试.选取DenseNet、Xception和MobileNetV2三种模型,以灾难场景数据集(Disaster_Data_Scenes)为数据集进行实验验证.结果表明:改进的Xception和MobileNetV2网络在灾难场景数据集上进行的图像分类实验测试,比原网络精度分别提升了4.56%和3.04%.其中改进的DenseNet网络比原网络模型精度分别提升9.13%、17.88%和10.27%.可见改进的卷积神经网络模型的分类精度得到有效提高.  相似文献   

19.
提出了一种新颖的细粒度图像分类算法。首先从神经网络VGG 16中提取出卷积特征后进行特征筛选,得到选择性卷积特征;然后利用最大后验高斯混合模型对特征进行分类,从而解决细粒度图像分类问题。造成细粒度图像分类困难的主要原因是类内差异和类间差异。利用卷积特征对图像具有更细致的描述能力,可以有效地减小类内差异;同时,对从VGG 16中得到的卷积特征进行筛选,能够较大程度地摆脱背景干扰,从而提高类间差异。最后,采用基于最大后验的高斯混合模型对这些选择性卷积特征进行分类。实验结果表明,本文算法不仅克服了两种差异带来的问题,还解决了传统高斯混合模型缺少大量实验数据的困难。在目前流行的5种细粒度图像数据集上,本文算法都有更好的分类效果。  相似文献   

20.
多峰、高维的大规模优化问题是当前优化领域的研究热点.文中以协同进化算法为框架,提出了一种融合多种搜索策略的差分进化大规模优化算法.基于分解的思想,该算法首先利用自适应差分进化算子对子问题进行局部优化求解;然后引入基于模拟退火的随机搜索机制提高算法的全局搜索能力,并结合局部搜索链对解空间进行深度搜索.采用大规模优化标准函数对算法进行测试,结果表明,文中所提出的算法相比现有算法在平均值和最优解上均取得了更好的优化结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号