期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陆旭陈毅红熊章瑞廖彬宇《云南大学学报(自然科学版)》2020,(2):244-251

为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升. 相似文献

2.

大数据下的智能数据分析技术研究 总被引：1，自引：0，他引：1

李贵兵罗洪《科技资讯》2013,(30):11-12

大数据背景下对数据的智能分析技术提出了新的挑战,本文对传统的智能数据分析技术做了比较,分析其各自的优缺点。同时对新的大数据分析方案Hadoop进行了梳理,提出了未来大数据智能分析技术的发展方向的展望。相似文献

3.

基于差异灰狼优化决策树的大数据分类方法

吕廷勤魏萌《西南师范大学学报(自然科学版)》2021,(3):1-6

针对现有大数据分类算法中存在准确率低的问题,本文提出一种基于差异灰狼优化决策树的大数据分类方法.该方法首先将复杂的大数据输入M ap-Reduce框架中,采用主成分分析法对输入数据进行降维;然后利用支持向量机对压缩后的数据进行粗略分类;最后采用基于差异灰狼优化的决策树对支持向量机输出的类标签进行精细分类,获得更高的分类... 相似文献

4.

大数据环境下的数据安全技术分析

田沛霖《甘肃科技纵横》2022,(9):1-3+24

随着大数据技术的不断发展与广泛应用,传统的数据安全技术受到了诸多挑战。本研究立足大数据安全技术,阐述了大数据环境下数据安全面临的挑战,结合国内外数据安全案例与对相关技术的研究现状,探讨了各种数据安全技术在大数据环境下的数据安全问题中的应用。研究根据现实状况,从Hadoop平台架构的安全机制、网络隔离的脆弱性和身份认证的局限性与不便性视角出发,探索了相关技术缺陷的解决方案,最后对未来技术发展的可行路径进行探讨,指出应对Kerberos认证机制和嵌入TLS组件的具体实现流程进行详细分析,并深入了解“震网”病毒及其攻击原理与应对技术。相似文献

5.

水利自动化实时流式大数据的处理研究

彭大为史惠存《江西科学》2020,38(2):252-256

随着计算机技术的不断发展,数据处理技术不断推陈出新,特别是大数据、分布式集群、云计算技术的发展使得数字水利开始向智慧水利转变。由数字水利向智慧水利转变的重要技术之一就是对水利大数据的处理,大数据处理是实现智慧的核心技术。一个完整的大数据处理工作流程大致包括数据收集与导入、数据清洗与质量控制、数据管理与存储、数据分析与可视化、数据建模与模型管理。主要对水利自动化实时流式大数据的处理提出了一种解决方法,该方法能够实现对水利自动化设备实时上报的高频流式大数据进行有效的处理。相似文献

6.

浅析大数据时代的产品与技术

李彭《山西科技》2013,(6):100-102

介绍了大数据数据结构的特点,分析了大数据平台的系统架构和关键技术．比较了主流的数据库产品。相似文献

7.

基于动态分布式聚类算法的大数据查询处理方法

唐运乐韦杏琼《西南师范大学学报(自然科学版)》2021,(5):134-139

针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式... 相似文献

8.

银行数据大集中环境下大规模固定报表生成

覃雄派周晓云吴忠信杨宏志王玮《华中科技大学学报(自然科学版)》2012,(Z1):5-8

为了在有限的时间窗口内完成大批量报表的生成,提出ROLAP&SQL、共享扫描、Hadoop以及MOLAP&Cube Sharding等4个技术方案,其中的共享扫描技术方案通过所设计的算法实现.实验结果显示:除ROLAP&SQL技术方案不能满足时间窗口要求外,其他3种技术方案都能满足,其中Hadoop技术方案以高度的扩展性体现出很好的应用前景.综合考虑技术成熟度和性能,选择MOLAP&Cube Sharding技术方案应用于项目实践中. 相似文献

9.

大数据环境下科技情报研究的新模式

陈伟杨锐何涛王朔陈江萍《科技导报(北京)》2018,36(16):78-85

大数据时代为科技情报研究与服务带来了重大的机遇和挑战,迫切需要发展新的数据驱动型情报研究模式来变革数据治理和工作流程,提高情报研究和咨询服务的质量。本文概述了传统的人力驱动型科技情报工作模式,分析了存在的问题和局限性;综述了海量异构数据集成、数据管理与分析方法和工具的开发进展;提出了建设数据驱动型科技情报研究模式的整体架构,展望了未来研究的重点。相似文献

10.

大数据环境下审计模式创新研究

韩强《创新科技》2015,(6):64-65

大数据正在成为国家竞争的前沿以及产业竞争力和商业模式创新的源泉,云计算、物联网、计算机仿真、4G通讯等信息技术正以空前的影响力、传播力和渗透力,不可阻挡地改变着社会的经济结构、生产方式和每个人的生活方式,这客观要求审计信息化建设也必须努力适应、快速跟进。本文主要针对审计今后发展提出了应对大数据审计的措施和办法。相似文献

11.

基于Spark框架的大数据K-prototypes聚类算法

龚静《西南师范大学学报(自然科学版)》2019,44(7):63-68

大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率. 相似文献

12.

Spark数据倾斜问题研究

张占峰王文礼耿珊珊贾芝婷《河北省科学院学报》2020,37(1):1-7

当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。相似文献

13.

大数据环境下网格事件数据应用研究

刘维军《辽宁师专学报(自然科学版)》2021,23(1):39-42

阐述了网格事件信息传播要素及网格化管理的概念,并提出了大数据环境下有效提高数据应用意识、充分拓宽数据应用领域、科学建设数据集成平台、架构网格事件分析体系、有效提高政府管理效能等相关建议,旨在促进网格化管理的现代化发展进程. 相似文献

14.

电信大数据管理应用技术研究

张瑞《甘肃科技纵横》2014,43(11):29-30

目前针对电信大数据管理应用技术的研究方法与手段众多,但目前主要集中在Hadoop架构的数据存储及应用开发上,采用Hadoop对于电信大数据的应用主要包括存储系统(HDFS)、计算系统(Map Reduce)和HBase。该框架的实现为我国高效合理的电信大数据管理提供了一种解决问题的新思路。相似文献

15.

基于决策树的流数据分类算法综述

《西北民族学院学报》2020,(2):20-30

流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,针对流数据的特征提出特定的分类算法,是流数据分类的一个主要研究分支.为了全面介绍基于决策树的流数据分类算法,首先,简要概述数据挖掘及主要任务、决策树及其主要算法、流数据及其主要特性;然后,按照算法是否考虑概念漂移问题,将现有工作划分为包含概念漂移的流数据分类算法和不含概念漂移的流数据分类算法两大类,分别介绍每一类算法的主要算法流程、优缺点和典型应用;最后,指出基于决策树的流数据分类的进一步研究方向. 相似文献

16.

大数据时代下数据挖掘技术的应用

刘铭吕丹安永灿《科技导报(北京)》2018,36(9):73-83

大数据时代下,数据挖掘技术越来越受到人们的关注。本文介绍了数据挖掘技术的研究背景和研究现状,论述了决策树、支持向量机、神经网络等数据挖掘技术的相关算法,分析了数据挖掘技术在大数据中的相关应用及未来的发展趋势,探讨了在大数据时代数据挖掘技术面临的挑战。相似文献

17.

基于大数据平台hadoop的聚类算法K值优化研究

武霞董增寿孟晓燕《太原科技大学学报》2015,(2):92-96

针对最大最小值原则的Kmeans聚类算法运行在Hadoop平台时需要多次遍历所有数据的问题,提出了一种改进的初始聚类中心的选择算法称为M+Kmeans算法。该算法只需要遍历一次全局数据极大的缩减了算法并行运算时消耗的时间。多组实验测试结果显示,设计的M+Kmeans算法适合运行在大规模集群Hadoop平台上,并且加速比和扩展率较原始算法有明显提高。相似文献

18.

大数据环境下管理科学领域相关问题探讨 总被引：1，自引：0，他引：1

吴启迪《科技促进发展》2014,10(1):9-14

近年来,"大数据"作为热门话题,在学术研究领域及日常媒体环境中均受到广泛关注。本文简述了大数据环境下的管理模式在公共管理、工商管理和管理工程这三个方面的体现,并列举了目前我国在电子商务、智慧农业、金融业、环境治理、文化产业、传统医学领域已经有较好发展的大数据应用案例。最后针对大数据环境下的管理创新所面临的问题,提出了一些发展的思路和思考,分析了基于大数据的管理模式创新发展趋势。相似文献

19.

大数据环境下数字图书馆的信息组织策略研究

刘钊《创新科技》2016,(2):73-75

大数据时代的到来,给数字图书馆的信息组织提出了新的挑战。本文主要分析了数字图书馆信息组织在新环境下面临的问题和困境,并探讨和提出了如何应对这种困境的信息组织策略。相似文献

20.

大数据环境下岭南文化数字资源整合研究

付兵《科技资讯》2023,(8):200-204

在分析国内外文化数字资源整合研究现状的基础上,探索将信息集群理论、信息生态理论、整体政府理论和新公共服务理论运用到岭南文化数字资源整合中。结合国内外文化数字资源整合的实践经验,提出大数据环境下岭南文化数字资源整合模式由整合目标、整合主体、整合对象、技术标准等要素构成,构建了基础设施层、系统平台层和用户界面层组成的岭南文化数字资源整合服务平台。相似文献