首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。  相似文献   

2.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

3.
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.  相似文献   

4.
在对大规模数据进行蜻蜓算法优化时,由于要计算的维度过多,迭代次数过大,从而耗费大量运算时间,而基于Spark分布式计算可以减少大数据运算的耗时。将DA算法在Spark分布式计算平台下进行并行计算,把蜻蜓种群被分配到各个节点,每节点中蜻蜓个体信息通过多线程并行更新,然后共享全局最优解,从而提高大规模数据优化的运行速度。最后仿真实验的验证是由4个测试函数进行测试,验证结果显示:在保证正确率的前提下,基于Spark的DA算法在对大规模数据优化的计算用用时最少。  相似文献   

5.
逻辑回归和线性支持向量机是解决大规模分类问题的有效方法,然而它们的分布式实现问题到现在也没有得到更好的研究.近年来,由于分布式计算框架在迭代算法中低效率性的原因,一种基于内存的集群计算平台Spark已经被提出来,并正在成为应用于大规模数据处理和分析的一个普遍框架.在本研究中,使用了新拟牛顿方程用于解决逻辑回归以及线性支持向量机的问题,并且在Spark框架中进行了实现.实验表明该方法显著提高了大规模分类问题的准确性和效率.  相似文献   

6.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

7.
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务.  相似文献   

8.
为了实现大数据环境下非线性高维数据的降维,提出了基于Spark的并行ISOMAP算法.在该方法中,为了快速求解大规模矩阵的特征值和特征向量,设计并实现了基于Spark的并行块Davidson方法;同时,针对大规模矩阵计算和传输困难的问题,提出了基于RDD分区的行块式矩阵乘法策略,该策略把每个分区中的矩阵行转换成块矩阵,行块式矩阵可不受map算子对RDD逐条计算的限制,并可以利用Spark中的线性代数库参与矩阵级别的运算.实验结果表明,行块式矩阵乘法策略有效提高了矩阵运算的效率,并行块Davidson方法能够快速求解大规模矩阵特征值和特征向量,有效提高了并行ISOMAP算法的性能,表明并行ISOMAP算法可以适应大数据环境下的降维处理.  相似文献   

9.
图是一种重要的数据模型,能够描述结构化的信息,在诸如交通网络、社交网络、Web页面链接关系等领域应用广泛,因而获得了广泛的研究.海量的图数据管理对传统的图分析处理技术提出了挑战,分布式集群计算为大规模图数据分析提供了基础平台.随着计算机硬件性价比的大幅提升以及高性能应用需求,基于内存计算的海量数据处理技术获得了业界青睐.图数据高效存储和计算与内存计算密切相关,在此背景下,文章综述了大规模图数据处理相关技术进展,研究了典型的基于内存计算的大规模图数据管理系统,最后总结了基于内存计算的图数据管理的关键点.  相似文献   

10.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

11.
基于以往文献提出线性混合效应模型参数的三步估计方法,避免了繁杂的极大似然估计迭代步骤。同时为进一步解决海量数据下计算估计量时存在的存储瓶颈及计算时间过长问题,在海量纵向数据的两种不同数据格式下,分别基于三步估计方法利用分治算法计算模型参数的估计量。数值模拟和实证分析结果表明,本文所提出的三步估计方法和估计量的分治算法可以减轻计算负担,减少占用内存,解决内存不足的问题,并提高计算速度。  相似文献   

12.
对谷歌浏览器多进程技术的工作原理及其源码进行了研究,分析了浏览器进程空间中的数据,设计了一种谷歌浏览器隐私模式下的用户浏览数据恢复方案。该方案依据进程EPROCESS结构中的成员信息,提取隐私模式谷歌浏览器所有进程的内存空间数据,将每个浏览器进程的内存空间数据与目标浏览数据的模板进行匹配,从而恢复出用户使用隐私模式的谷歌浏览器上网产生的浏览数据。实验结果表明,该方案可以从内存镜像中恢复用户的浏览数据。  相似文献   

13.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

14.
随着互联网技术的快速发展,如何对海量网络信息进行挖掘分析,已成为热点和难点问题。推荐系统能够帮助用户在没有明确需求或者信息量巨大时解决信息过载的问题,为用户提供精准、快速的业务(如商品、项目、服务等)信息,成为近年来产业界和学术界共同的兴趣点和研究热点,但是,目前数据的种类多种多样并且应用场景广泛,在面对这种情况时,推荐系统也会遇到冷启动、稀疏矩阵等挑战。深度学习是机器学习的一个重要研究领域和分支,近年来发展迅猛。研究人员使用深度学习方法,在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。目前,深度学习在推荐领域也得到了许多研究人员的青睐,成为推荐领域的一个新方向。推荐方法中融合深度学习技术,可以有效解决传统推荐系统中冷启动、稀疏矩阵等问题,提高推荐系统的性能和推荐精度。文中主要对传统的推荐方法和当前深度学习技术中神经网络在推荐方法上的应用进行了归纳,其中传统推荐方法主要分为以下3类:1)基于内容推荐方法主要依据用户与项目之间的特征信息,用户之间的联系不会影响推荐结果,所以不存在冷启动和稀疏矩阵的问题,但是基于内容推荐的结果新颖程度低并且面临特征提取的问题。2)协同过滤推荐方法是目前应用最为广泛的一种方法,不需要有关用户或项目的信息,只基于用户和诸如点击、浏览和评级等项目的交互信息做出准确的推荐。虽然该方法简单有效但是会出现稀疏矩阵和冷启动的问题。3)混合推荐方法融合了前2种传统推荐方法的特点,能取得很好的推荐效果,但在处理文本、图像等多源异构辅助信息时仍面临一些挑战与困难。依据神经网络基于深度学习的推荐方法主要分为4类:基于深度神经网络(DNN)的推荐方法、基于卷积神经网络(CNN)的推荐方法、基于循环神经网络(RNN)和长短期记忆神经网络(LSTM)的推荐方法、基于图神经网络(GNN)的推荐方法、将深度学习技术融入到推荐领域,构造的模型具有以下优势:具有较强的表征能力,可以直接从内容中提取用户和项目特征;具有较强的抗噪能力,可以轻易地处理含有噪声的数据;可以对动态或者序列数据进行建模;可以更加精准地学习用户或项目特征;便于对数据进行统一处理,并且可以处理大规模数据。将深度学习技术应用到推荐领域,可以积极有效地应对传统推荐方法面临的挑战,提高推荐效果。  相似文献   

15.
对数据溯源和大规模传感网数据处理系统进行了综述,描述了大规模传感网上的数据溯源应用场景.通过与传统数据处理系统的比较,指出在大规模传感网数据处理系统上进行数据溯源面临的挑战.  相似文献   

16.
17.
基于EPROCESS特征的物理内存查找方法   总被引:1,自引:1,他引:0  
为了快速定位目标活动进程,提取对应的物理内存数据,分析了Windows系统中进程运行时其EPROCESS结构的特性及作用,提出了基于EPROCESS特征的物理内存查找方法.该方法利用EPROCESS结构的特性,定位出活动进程的EPROCESS结构,找出进程页目录基地址,并根据虚拟地址描述符的功能,提取活动进程物理内存.实验结果表明,该方法能快速、有效地定位活动进程,提取出活动进程物理内存,缩小取证分析范围,提高取证效率.  相似文献   

18.
针对地震数据处理中存在的数据交换效率低的问题,在分析传统地震数据文件存取基础上,提出一种基于内存映射的方法对地震数据处理.通过实验结果分析,基于内存映射的地震道集数据的存取效率高于传统方法近3倍,其中以全局方式映射地震道集数据耗时最短、效率最高.基于内存映射的地震道集数据存取有效的解决了这一问题,提高了在地震资料处理过程中的效率.  相似文献   

19.
数据可视化对于从海量数据中发现规律、增强数据表现、提升交互效率具有重要作用。目前,数据可视化的概念及相关研究领域不断扩展,就数据类型而言,可视化研究逐渐聚焦于多维数据、时序数据、网络数据和层次化数据等领域。通过对中国知网(CNKI)中外文文献进行分析可知:2014年、2015年是数据可视化领域研究热度升级、理论成果大量产出的“里程碑”式年份;中国大数据领域研究热潮形成后,数据可视化是迅速发展的一个重要支撑领域;国内外数据可视化领域的研究,在时间上基本同步,而武汉大学、浙江大学、北京邮电大学、国防科技大学、电子科技大学等都是在该领域研究活跃度较高的国内高校。要获得良好的视觉效果,帮助用户降低理解难度,高效分析数据和洞悉价值,通常还需要注意色彩与语义、突出核心数据、防止数据过载、防止思维过度发散等技术要点。现有的数据可视化技术主要分为基于几何技术、基于图标技术、基于降维技术、面向像素技术、基于时间序列技术、基于网络数据技术的数据可视化方法,以及层次可视化技术和分布技术等。基于几何技术的可视化方法,包括平行坐标、散点图矩阵、Andrews曲线等。基于坐标的可视化方法,可以清晰展示变量间的关系,但受限于屏幕尺寸,当数据维度超过3个时,难以直观显示全部维度,需要结合人机交互技术进行展示,适用于表达不同维度之间的相关关系,比如学生学习行为之间的关联关系等。基于图标的可视化方法,主要包括星绘法和Chernoff面法,以几何图形作为图标刻画多维数据,直观反映出图标各个维度所表示的意义,适用于工作完成情况、激励工作进度概览等。基于降维技术的可视化方法,根据维度属性确定点的坐标,在保持数据关系不变的前提下映射到低维可视空间中,主要涉及主成分分析、自组织映射、等距映射等。基于时间序列的可视化方法,是一种显示数据间相互关系和影响程度的可视化方法,主要包含线形图、堆积图、地平线图等,随着时间发展采集相应数据,并利用上述3类可视化方法进行呈现,适用于表示信息数据流动和变化状态,如不同时间段成绩流向趋势分布、主题概念的变迁等。基于网络数据的可视化方法,核心是自动布局算法,通过自动布局与计算绘制成网状结构图形,主要有力导向布局、圆形布局、网格布局等,常用来表示大规模社交网络结构,适用于活跃度分析、引文关系展现等。层次可视化技术,主要包括节点链接、空间填充、混合方法等,通过绘制不同形状的节点和包围框来表示层次结构的数据,适用于表示群组成员间交互关系的发现和挖掘,如在线协作员工之间的交互。基于CNKI,通过对数据可视化研究情况的分析,提出数据可视化研究过程中的注意点,指出数据可视化需要重点考虑色彩的匹配,在色彩与数据内容的重要度之间建立关联;可视化方案应在满足业务需求的基础上以业务逻辑为依据,合理组合与应用相关可视化技术;统一的可视化风格有助于提升人们理解数据的连贯性、一致性和效率,兼顾用户的审美要求,在风格与色彩之间建立合理的匹配关系;数据可视化应以实用、合理、高效地表现关键过程、关键目标、关键结果为主要面向。此外,对可视化应用实例Echarts展开综述,包括Echarts 交互组件(markPoint和markLine标注点组件、dataZoom区域组件、图例交互组件)在可视化中的应用,以及动态数据绘制等。最后,对可视化存在的挑战以及未来研究方向进行了分析和展望,指出虚拟现实、可视化系统和数据分析是可视化未来的研究方向,其应用热点领域还包括统计可视化、新闻可视化、思维可视化、社交网络可视化和搜索日志可视化等。  相似文献   

20.
针对某型号旋转弹用微惯性测量组合实际应用需求,设计并实现了一种基于FPGA的大容量微惯性测量组合(MIMU)数据采编系统。以ADS8365采样转换模拟量,以MAX3490实现RS422接口信号电平转换。将MIMU输出的数据存储到FLASH存储器中,实现对弹体整个飞行过程中信息的准确采集。探讨了系统硬件电路搭建、时序逻辑控制设计方法,重点叙述了FPGA控制数据采编与存储时序逻辑设计。实验证明该系统很好地实现了对MIMU输出的数模混合数据的采集,具有小型化、低功耗、抗高过载等优点,非常适用于惯性导航中需多通道混合数据采集的应用场所。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号