首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
大数据处理系统是大数据领域的一个热点,为此首先研究大数据分析平台的架构与功能,将大数据分析平台分为数据源、数据吸收层、数据存储层、平台层、安全与监控层、设备层和应用层.平台包含多个数据预处理和算法模块,平台架构为大数据分析了奠定基础.在功能上,该平台功能全面,可以自由组合各种操作,模块之间耦合度低,便于维护和拓展.在用户体验上,调参、建立流程、监控、数据挖掘过程都是可视的,融合工作流和调度流技术.在性能上,该平台相应算法的性能优于Hive和MLlib.最后,举例说明大数据挖掘平台的应用场景.可以对电网线路故障和气象数据进行预处理,从而对故障进行预测和分类,可以通过视频挖掘组件,对数据分类.  相似文献   

2.
Spark SQL在获取Spark核心的计算结果后,需要进行一些格式转化和数据拷贝才能正式输出,将造成内存中相同或近似相同的数据有多个拷贝,浪费了内存资源,也降低了性能,直接影响了用户响应和结果存储容量,并且这种影响会随着输出结果的增大而增大.为此,文中提出了基于Spark大数据处理平台的创新查询方法,以实现查询首结果...  相似文献   

3.
随着基于位置服务应用的不断推广,空间文本数据查询的应用价值(例如结合地理位置和用户标签的社交推荐)也在不断提高.但是,随着数据规模的迅速增长,传统的基于单机环境实现的技术难以为用户提供低延时和高吞吐量的服务.为此,本文基于Spark平台对分布式环境下的空间文本查询算法进行了探究.采用了面向海量空间文本数据的两层索引框架(包括全局索引和局部索引),该框架利用了分阶段过滤的策略来处理分布式下的布尔范围查询问题.同时,针对空间文本相似连接提出了Prefix-RI结构并提出了相应的分布式算法.基于Spark平台实现了所提出的分布式算法,并通过大量的实验对比验证了所提出方法的优越性.  相似文献   

4.
基于Spark平台的岩石图像聚类分析   总被引:1,自引:0,他引:1  
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。  相似文献   

5.
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务.  相似文献   

6.
通过参考数据技术和OLAP多维数据分析的思想,依托统计学中的复杂指标体系计算方法,提出一种新的树状层级数据结构,当有新增元素时,用户可以很方便地往里面添加新的树的节点.这种技术结构灵活,能够较好地适应大数据实时更新的特性;更加贴近用户,可以运用于多种大数据处理业务.  相似文献   

7.
为科技智库时代的发展,更好地提供科技资源,提高信息服务的质量和水平,采用数据挖掘技术和用户画像建模方法应用于吉林省科技文献信息服务平台(简称"平台"),可以根据用户下载文献的历史数据发现、挖掘数据之间的关联关系;平台功能的升级,极大提升了平台用户检索绩效、用户信息获取绩效,提高了用户科研绩效,完善了平台的支撑和保障作用...  相似文献   

8.
为了准确分析页岩气井压裂液产出规律,通过大数据的筛选和分析对影响页岩气井生产的26个因素进行得分排序,得出影响页岩气气井压裂液产出率的主控因素为地质储量、平均单段砂量、孔隙度、A靶点和B靶点深度。通过主成分分析和多元线性回归建立气井压裂液产出规律预测数学模型,计算表明,压裂液产出率的预测值与实际生产数据相比,预测精确度在90%。  相似文献   

9.
为获取移动用户轨迹数据中的价值信息,利用Spark集群分布式处理用户行为轨迹的原始数据,对存入HBase分布式数据存储中的数据进行筛选、分析后存入Hive数据库中,Spark对数据库文件中的数据进行相关性卡方检验和K-Means聚类分析,得到用户出行方式的统计结果及在距离限制下出行方式选择的普遍规律.该过程为用户行为分析和预测提供可行的解决方案.  相似文献   

10.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

11.
12.
当前,数据挖掘已经成为各行各业不可或缺的技能,能够选择一款合适的数据挖掘平台尤为重要.本文通过对数据挖掘开源平台的使用难易程度、各挖掘平台提供的算法及其可视化等性能进行综合分析,并结合部分现有文献资料,为数据挖掘的初涉者选取开发平台提供参考依据.  相似文献   

13.
本文提出一个基于数据挖掘技术的经营分析支持系统框架,阐述了系统采用的关键技术,如数据挖掘技术、数据仓库技术、数据抽取技术、联机分析技术等。本文采用的数据挖掘过程严格遵照业界流行的CRISP-DM过程模型,结合金融企业特点对数据挖掘技术进行了详细描述,并阐述了数据挖掘技术在金融企业领域内的应用情况。  相似文献   

14.
数据挖掘具有计算密集型和存储密集型的特点,中间件技术能够较好的解决这两个问题.研究并实现了典型的分类、聚类、关联规则算法及其增量算法的中间件和数据挖掘企业应用平台,能够处理100 Mbit量级的数据,适应的数据增量在10~100 Mbit量级,并且能够根据不同的挖掘任务实现相应的模式展现与可视化.平台上对某网球训练基地运动员体能训练数据集执行增量聚类挖掘任务,结果表明该平台能较好地满足可靠性、扩展性、易用性等业务需要.  相似文献   

15.
随着互联网对社会的持续渗透,社交网络得到了迅猛发展,也成为研究的一个热点.在大数据时代,社交网络具有数据量极大的特点,传统的分析技术不能胜任.利用Spark分布式计算系统,进行了社交网络的特性分析.  相似文献   

16.
该文针对电信运营商长期以来用工总量大、人力资源效能低的问题,积极探索和开展人力资源领域数字化转型实践。依托数据中台的集约化能力,整合拉通全域数据,基于大数据挖掘分析结果,建系统上手段,全生产场景嵌入赋能,聚焦不在岗和低产能人员,严格考核退出,提高用工效率,提升员工产能,关注一线群体产能与薪酬分配一致性,推动奖优罚劣和按劳分配,激发员工活力,最终实现用工配置—产能—薪酬的“三透明”。  相似文献   

17.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

18.
用电信息大数据上的OLAP查询涉及数据量大,具有多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,表现出可扩展性弱、数据写入吞吐量低与查询效率低等问题.为此设计了一套基于Spark/Shark的电力大数据OLAP分析系统,该系统采用分布式文件系统HDFS保存电力用电信息采集系统的大数据,通过Shark进行前端SQL解析,Spark进行查询计算;然而,原生Shark只支持粗粒度分区,不支持细粒度的索引技术,难以高效地过滤无关数据,影响了查询性能.为克服这一不足,该系统设计了一种基于前缀树的细粒度索引结构TrieIndex,并通过数据重组技术优化了数据在HDFS的分布,提升了Shark的数据过滤能力以及用电信息大数据OLAP分析的性能.真实用电信息采集系统数据与查询的实验结果表明,该系统比关系型数据库的写入速度提升了12倍,比原生Shark的查询效率提升了10倍以上.  相似文献   

19.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

20.
对空间数据挖掘、GIS、Web Service等技术进行了研究.基于SOA架构、面向Web Service,对空间数据挖掘平台进行了系统分析与设计,以Web Service的方式为用户提供空间数据挖掘服务,从而大大降低了空间数据挖掘的使用难度,以一种耦合度极低的方式实现空间数据挖掘与第三方软件有效集成.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号