首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
数据挖掘在各行业发挥着越来越重要的作用,随着数据挖掘中数据量的高速增长以及大规模计算在数据挖掘中的应用,挖掘算法处理海量数据的能力问题日益突出。研究并行算法是解决这一问题的有效途径,该文对常见的数据挖掘关联规则及聚类并行算法进行了研究探讨。  相似文献   

2.
随着社会的日益发展,数据量的增长日益加快,特别是随着互联网行业的迅猛发展,基于网页而生成的影视传媒领域海量日志数据正在成为各个互联网公司必须面对和需要认真处理的重要数据形式,面对如此影视传媒领域海量的数据,不仅需要考虑如何快速、灵活、高效的存储这些数据,也需要充分的利用这些影视传媒领域海量数据帮助进行分析,因此面向影视传媒领域海量数据的数据挖掘技术,将成为一个重要的研究方向。  相似文献   

3.
在当前的数据信息时代,全球以电子方式存储的数据总量正在飞速的增长,2011年全球数据量已经超过1.8ZB。海量数据的存储与快速分析也因此对传统的计算机形成一个严峻的挑战。云计算的快速、高效等特点成为它处理海量数据的优势。  相似文献   

4.
最小噪声分离变换(MNF)是高光谱遥感影像分类中特征提取和去除噪声的有效方法.MNF算法涉及大量的矩阵运算,在实际工程的海量数据处理中存在计算时间长的问题.在分析MNF算法原理的基础上,运用图形处理单元(GPU)并行框架对该算法进行优化,并通过不同大小的高光谱遥感数据进行计算和分析.结果表明,随着影像数据量的递增,采用并行计算方式的提速比呈明显上升趋势,说明GPU并行方式对于计算密集型的大数据量处理具有良好的提速效果,为解决海量高光谱遥感数据处理速度慢的问题提供了思路.  相似文献   

5.
对快速增长的数据进行挖掘的有效途径之一是采用增量式更新算法,其中最具代表性的是MRFUP算法。该算法的剪枝策略减少了关联规则的计算,但在处理增长快速的数据时效率过低,且频繁计算新增数据。文章以提高海量数据下关联规则增量更新效率为目标,通过扩展能够并行处理关联规则的PFP算法而提出一种基于PFP的关联规则增量更新算法MRPFP。该算法能充分利用云平台强大的存储和并行计算能力。该算法的实验结果表明,MRPFP处理海量数据的效率优于MRFUP算法,更适用于海量数据的关联规则挖掘。  相似文献   

6.
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.  相似文献   

7.
一种面向数据密集型计算环境的聚类算法   总被引:1,自引:0,他引:1  
针对数据密集型计算环境下数据具有海量、分布、异构、高速变化等特点,分析传统的基于密度的分布式聚类(Density Base Distributed Clustering,DBDC)算法,借助MapReduce编程模型,提出一种新的分布式聚类算法,采用局部和全局的方式处理海量、异构数据,解决具有以上特点的数据密集型计算环境下数据的分析挖掘问题。得出算法的复杂度为O((nlog2n)/p),实验验证在数据量与节点数变化时算法具有较高的稳定性和可伸缩性,与原算法对比该算法具有较高的准确度。  相似文献   

8.
物联网近年来得到了迅速的发展.停随着各种传感设备的使用,物联网所处理的数据量呈现出海量特征.如何对这些数据进行高效处理,从中获取有用信息,进而提供智能决策,是物联网面临的关键问题.该文对物联网中使用的海量数据处理技术进行了介绍.  相似文献   

9.
多策略数据挖掘系统的分析与设计   总被引:1,自引:1,他引:0  
为了满足数据规模的膨胀和分析需求的增长,在对数据挖掘系统的发展史进行回顾的基础上,分析了国内外典型数据挖掘系统的特点,设计了一个多策略的数据挖掘系统。并针对数据挖掘面临的大规模海量数据的处理问题,为系统引入和设计了算法插件思想、缓冲区处理技术、基于XML(Extensib le M arkup Lan-guage)语言的配置文件和相应的并行处理技术。最后讨论了系统今后开发过程中需要注意算法更新及评估的问题。  相似文献   

10.
随着计算机网络的快速发展,Web数据量呈快速增长,在海量的Web数据中发现有价值的数据和知识,是数据挖掘技术的重要应用.分析和研究Web数据挖掘的内容和过程,介绍Web数据挖掘的算法十分必要.  相似文献   

11.
DM数据库中的数据规模大且维度复杂,为了在有限的条件下尽可能满足用户对DM数据库功能的需求,提出一种新的DM数据库中大规模数据可扩展并行算法。不可扩展并行算法包括朴素并行、典型并行与逻辑并行三种处理规则,新算法将这三种处理规则结合起来实现数据自主运算,令每个运算节点均拥有三种处理模式,采用有向图将大规模数据划分为局部数据,并分配到处理器上,通过设置数据处理优先等级,完成流水线形式的数据处理过程,赋予并行算法强大的可扩展性。实验结果表明,新算法具有较强的可扩展性,负债均衡能力强。  相似文献   

12.
支持向量机(SVM)算法往往由于分类面过分复杂或过学习而导致其泛化能力降低,现有的最近邻(NNSVM)或K近邻(KNNSVM)方法解决了这类样本问题,但算法时间复杂度高,处理海量样本的能力有限。在NNSVM算法的基础上引入了网格概念,提出了GNNSVM算法,该算法先对空间进行分块,然后在空间块内计算样本距离,找出最近邻,并结合分块序列最小优化算法(SMO)进行了算法实现。实验表明,该方法降低了计算复杂度,它在保持分类精度的同时,提高了训练和分类的速度,并具有较强的泛化能力,从而提高了原NNSVM算法的海量数据处理能力。  相似文献   

13.
Outlier detection is a very important type of data mining,which is extensively used in application areas.The traditional cell-based outlier detection algorithm not only takes a large amount of time in processing massive data,but also uses lots of machine resources,which results in the imbalance of the machine load.This paper presents an algorithm of the MapReduce-based and cell-based outlier detection,combined with the single-layer perceptron,which achieves the parallelization of outlier detection.These experiments show that this improved algorithm is able to effectively improve the efficiency of the outlier detection as well as the accuracy.  相似文献   

14.
现有量化调制音频水印技术普遍采纳了均匀量化策略,其不仅需要结合大量实验确定量化步长。而且难以保证不可感知性与鲁棒性的良好平衡.以模糊聚类分析理论为基础.提出了一种自适应量化小波域数字音频盲水印算法.该算法能够结合数字音频局部特征.利用模糊聚类分析自适应确定量化步长,并在小波域内将水印信号嵌入到音频数据段的低频分量中.仿真实验表明,所提出的算法不仅具有较好的不可感知性.而且对于叠加噪声、重新采样、重新量化、低通滤波、MP3压缩等音频处理与攻击均具有较好的鲁棒性.  相似文献   

15.
当前节点选择算法在强噪声干扰下,通过优先级理论实现节点选择,存在安全性差、能耗高、整体性能低下的弊端,为此,提出一种新的强噪声海量物联网数据处理中节点选择算法。将数字序列中某点的值用与该点相邻的各点值的中值替换,通过中值滤波法对物联网中的强噪声进行去除,完成强噪声干扰去除后。通过基于后悔函数的平衡剩余能量节点选择算法对海量物联网数据处理中节点进行选择。依据误码率选择满足要求的节点作为候选节点,通过减少无效处理增强能量性能。利用后悔函数对节点相对物联网的剩余能量进行估算,依据节点相对于其他节点的剩余能量确定延迟时间,从而实现节点选择。实验结果表明,采用所提算法对海量物联网数据处理中节点进行选择,不仅安全性高,而且节能性好、整体性能高。  相似文献   

16.
随着数据量的不断增加,原有存储系统已不能满足海量数据存储的要求。RAID(redundant arrays of independent disks)存储系统因具有良好的数据可靠性、磁盘独立性和可扩展性,成为应用范围最广的存储系统。新型存储技术存在研究迟缓、推广率低的问题,使得在原有RAID存储系统中添加新的磁盘,成为存储海量数据最为便捷,最为有效,成本最低的方式。RAID发展至今,根据对数据存储的不同需求,衍生出了不同层级的RAID存储系统。RAID-6存储系统由数据盘与2个校验盘构成,相较于其他RAID存储系统,具有更好的数据容错功能,更高的数据恢复能力。因此,提出一种基于H-Code针对RAID-6存储系统的扩容算法HS6。该算法在扩容过程中体现了最小化数据迁移量和快速扩容等特性,与传统的Round-Robin和Semi-RR扩容算法相比,该算法减少了73.2%~88.6%的数据迁移量,缩短了30.6%~62.9%的总扩容时间。  相似文献   

17.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

18.
地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加速效果不理想。Spark作为一种面向大数据处理的通用分布式并行计算技术,可以应用于并可简化地震数据处理算法并行化过程。借助于Spark的优势,通过两个实例讨论了基于Spark的地震数据重建并行化方法,提出了对于具有复杂输入输出组织数据方式的算法的并行化方法,提升了算法效率。研究成果为该类算法的Spark并行化开发提供了有益借鉴。  相似文献   

19.
为确保大数据云存储下海量数据传输的完整度,提出了一种基于属性特征匹配和关联规则的海量数据传 输完整度控制方法。构建海量数据的属性特征高维重组模型,得到关键信息的特征分布状况,据此设计海量数 据的关键信息存储分布结构模型,采用关联规则方法进行海量数据的关键信息特征挖掘提取,利用关键信息进 行海量数据的特征分析和数据聚类处理,采用属性特征匹配方法设计海量数据关键信息存储节点后,利用模糊 减法聚类对关键信息存储节点进行聚类处理,在海量数据传输中,以数据关键信息存储节点传输的完整度实现 海量数据的传输完整度控制。仿真结果表明,采用该方法进行海量数据传输完整度控制,能提高云存储下的空 间利用效率,数据传输完整度高。  相似文献   

20.
构建数字地球需要融合海量地理信息、高程信息、航拍信息、标注信息和其他用户自定义业务信息。如何汇聚调度这些海量数据是实现数字地球软件平台的关键问题。针对这一问题,本文分析了数字地球平台的信息汇聚实施网络拓扑结构、信息处理软件架构,研究信息分类调用与汇聚模块设计及全球海量影像数据的调度策略。基于上述研究成果,初步在项目中实现数字地球平台。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号