期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邓晓林陈毅红王登辉《太原师范学院学报(自然科学版)》2021,(2):47-57

传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数... 相似文献

2.

基于Spark的地震数据重建方法的并行化

廉西猛《科学技术与工程》2023,23(8):3168-3176

地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加速效果不理想。Spark作为一种面向大数据处理的通用分布式并行计算技术,可以应用于并可简化地震数据处理算法并行化过程。借助于Spark的优势,通过两个实例讨论了基于Spark的地震数据重建并行化方法,提出了对于具有复杂输入输出组织数据方式的算法的并行化方法,提升了算法效率。研究成果为该类算法的Spark并行化开发提供了有益借鉴。相似文献

3.

基于Spark和梯度提升树模型的短期负荷预测

许贤泽刘静施元谭盛煌《华中科技大学学报(自然科学版)》2019,(5):84-89

利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求. 相似文献

4.

Spark框架下交通流数据高效处理方法及其应用

李欣《北京大学学报(自然科学版)》2018,54(6):1227-1234

设计并实现基于Spark的交通流数据处理与预测分析应用框架, 可以完成交通流数据的高效清洗、统计、存储和查询。利用基于多阶空间权重矩阵的STARIMA模型进行交通流预测分析, 可以验证数据处理效率及对预测应用的支撑作用。对比实验结果表明: 1) 交通流数据处理框架运行效率高, 适用于复杂的数据清洗和挖掘算法, 为预测模型建立数据支撑; 2) 交通流预测模型对空间权重矩阵进行了多阶优化, 兼顾高效性和准确性, 预测分析结果可以为交通诱导提供参考。相似文献

5.

基于Spark和SimHash的大数据K-近邻分类算法

翟俊海沈矗张素芳王婷婷《河北大学学报(自然科学版)》2019,39(2):201

在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率. 相似文献

6.

基于Spark框架的大数据K-prototypes聚类算法

龚静《西南师范大学学报(自然科学版)》2019,44(7):63-68

大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率. 相似文献

7.

基于Spark的DA算法并行化研究

唐立王利军《西昌学院学报(自然科学版)》2019,33(4):66-69

在对大规模数据进行蜻蜓算法优化时,由于要计算的维度过多,迭代次数过大,从而耗费大量运算时间,而基于Spark分布式计算可以减少大数据运算的耗时。将DA算法在Spark分布式计算平台下进行并行计算,把蜻蜓种群被分配到各个节点,每节点中蜻蜓个体信息通过多线程并行更新,然后共享全局最优解,从而提高大规模数据优化的运行速度。最后仿真实验的验证是由4个测试函数进行测试,验证结果显示:在保证正确率的前提下,基于Spark的DA算法在对大规模数据优化的计算用用时最少。相似文献

8.

一种基于XML和RDBMS的数据管理方法

王健祝裕璞《牡丹江师范学院学报(自然科学版)》2007,(3):6-7

对面向网络的应用系统中数据的特点进行分析,提出了一种结合数据库和XML技术来管理网络应用系统中数据的方法,并探讨了如何解决网络应用系统的数据共享问题,实现了基于EJB/JavaBean技术的数据处理组件.通过数据处理组件连接上层应用和数据库服务器可以方便地构建面向网络应用系统. 相似文献

9.

基于Hadoop和Spark构建可扩展的网络安全分析平台

《华中科技大学学报(自然科学版)》2016,(Z1):25-28

在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务. 相似文献

10.

基于Spark框架的电网运行异常数据辨识与修正方法 总被引：1，自引：0，他引：1

曲朝阳朱润泽曲楠曹令军吕洪波胡可为《科学技术与工程》2019,19(25):211-219

由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在此基础上结合并行K-means算法对数据进行二次聚类实现异常数据辨识;然后,在Spark框架下设计了基于径向基函数(RBF)神经网络的异常数据修正模型,实现对异常数据修正。最后,利用某省调度中心SCADA数据对方法的有效性进行了验证,结果表明所提方法能够有效处理电网运行异常数据,具有实际应用价值。相似文献