首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

2.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式...  相似文献   

3.
在保证实时性的前提下提高流式大数据卸载的准确性是一个重要问题。针对具有稀疏性的流式大数据开展2种典型场景下的卸载研究。对普通均匀业务的流式大数据进行空间建模,使用弹性距离对数据间的距离进行放缩,提出基于离心率的卸载方法。对异常检测业务流式大数据应用场景进行特征分析,使用预处理自动机对数据的动态处理过程进行描述,在综合考虑数据和处理行为相似度基础上,提出基于等价类划分的卸载方法。重复试验表明,所提出的卸载方法与传统卸载方法相比能明显提高卸载的有效性。  相似文献   

4.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数...  相似文献   

5.
利用云计算等先进技术对网络数据库进行优化总结.基于云计算等技术重新设计了一种面向大数据的网络数据库,实现了平台操作设计、集群模块搭建以及数据整合与预处理等.基于云计算等技术对网络数据库进行优化,是实现网络数据库存储容量提升,全面优化大数据时代网络数据库并发性、提高海量数据状态下网络数据库利用率的重要举措.  相似文献   

6.
提出了一种基于RTCP报告的实时流式传输拥塞控制算法——RCC算法(RTCP-based Congestion Control),解决了在传统IP网络中传输实时流媒体时的拥塞问题.算法以Padhye吞吐率模型为基础,利用RTCP报告携带的相关信息进行拥塞控制,一方面为发送速率的短期大幅变化进行了平滑处理,提高了流式传输的质量,另一方面使多媒体流的传输在与TCP流共存的时候具有较好的TCP友好性和较小的侵略性.  相似文献   

7.
大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本专题报告包含以下四个方面内容:1.大数据的价值;2.大数据带来的挑战;3.大数据研究成果;4.云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,论述以下观点:没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术。  相似文献   

8.
本文研究了云计算、大数据在图书馆的应用以及对图书馆发展模式的影响,提出云计算、大数据与图书馆最终结合的形态,是云数据图书馆的模式。并从平台、服务、内容、相互关系等方面论述了云数据图书馆的特征。  相似文献   

9.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

10.
为了提高在大规模流式数据环境下交通热点区域分析的算法效率,提出了一种流式数据两阶段方法;该方法在第一阶段使用基于改进Canopy算法进行粗聚类并产生宏簇,在第二阶段使用K-means算法进行细聚类;并以粗聚类产生的宏簇个数和类簇中心位置为指导产生更加准确的微簇聚类结果。在试验中,使用流式数据两阶段方法对北京市出租车的定位数据进行了聚类分析;并结合热力图和电子地图对聚类结果进行可视化表达,在最终的热力分析结果中可以直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合。试验结果表明该算法能够实时地对流式数据进行聚类分析,产生的数据结果可供用户在任意时间窗口范围进行查询分析,有助于为交通活动情况实时分析、交通规划和拥堵治理等方面提供有价值的理论参考依据。  相似文献   

11.
当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。  相似文献   

12.
复杂生产线系统由于设备规模大、影响因素多,导致运行过程存在着较强的不确定性。系统部署的传感器网络产生的实时大数据(流数据)可以作为系统状态监测的来源,然而传统数据处理方法并不能很好地对系统的健康度作出实时评价。该文以复杂生产线系统运行中的实时大数据(流数据)为基础,基于信息熵原理通过大数据分析方法量化分析系统内部属性间的行为模式和相关性关系,提出了一种基于大数据的复杂生产线系统健康度实时评估方法。磨矿生产线案例表明,该方法可以对复杂生产线的系统健康度作出实时评估。  相似文献   

13.
梳理了云计算图书馆的大数据知识服务研究现状,概括了其主要特点,并对5G时代云图书馆大数据知识服务进行展望.  相似文献   

14.
本文首先对物联网和大数据的概念进行了论述,继而对物联网大数据整合进行了分析探讨,最后在此基础上,得出了物联网和大数据之间的紧密联系是很难忽视的,它们是相互创造的。如果没有大数据的分析能力,物联网所产生的空前数量的数据将毫无用处。  相似文献   

15.
李慧 《科技与经济》2016,29(3):65-69
当前,随着"互联网+"概念的提出,互联网思维已经深入传统行业并显示出强大的能动性和创造力,越来越多的企业也通过互联网来获得计算能力和服务资源。云计算是一种通过互联网,以按需、自助的方式向客户提供硬件和软件等IT服务的新型模式。随着传统行业内外部海量数据的产生,重视对企业大数据的处理和分析可以为企业带来巨大的增值价值,从而适应外部不断变化的经济环境。研究尝试借鉴理论研究和实例分析的方法,首先对基于云计算的企业大数据商业价值从现实背景和理论背景进行了研究分析,然后对基于云计算的成本和价格进行了深入的剖析,其次结合对海尔云计算服务价值创造进行了实例分析,最终得出结论并进行了展望。  相似文献   

16.
现代科学研究的一个重要模式就是大科学项目,其特点是大科学装置和合作,并产生海量的科研数据.数据密集型的大科学项目对数据的采集、存储、分发和处理有着巨大的需求.本文以大科学项目为案例讨论了科研大数据在数据采集、处理、存储以及网络等方面的挑战,以及相应的应对方法.其中,国际上的高能物理实验每年产生数十拍字节(PB)的数据,这些数据需要妥善地记录和保存下来,并高效地分发到世界各地进行分析处理.高能物理学家基于网格技术合作建立了大数据处理的WLCG网格平台,该平台成功地支持了大型强子对撞机实验数据的处理和分析,同时也支持了其他大科学项目,取得很好的效果.另外,为了解决对数据的高效存储和访问,新的存储技术和网络技术,如软件定义网络和云存储等,被开发应用到科学大数据中.最后还介绍了云计算技术在科研大数据中的应用.  相似文献   

17.
云计算和大数据是目前商业界和政府部门研究的热点问题.文章探讨了利用云计算的虚拟化关键技术打造智慧城区相关问题,通过对城区进行现状分析,给出了系统建设的规划,逐步将现有数据中心升级打造成云计算中心,并通过建立云数据库实现城区数据标准化,实现数据共享与有效利用,减少系统重复建设.  相似文献   

18.
当前数据频繁项检测方法往往具有数据存储结构复杂、维护困难和复杂度高的弊端;针对这种情况,提出一种新的分布式空间数据库中有效数据频繁项实时检测方法。对事物数据进行分配,建立全局VFP树,将最近窗口中全部项集添加至全局VFP树,通过临时表对项集信息进行保存,利用遍历全局树实时检测有效数据的频繁项。通过滑动窗口的初始化阶段与滑动阶段对最旧一批项集临时表进行处理,实现维护。实验结果表明,所提方法能够有效实现分布式空间数据库中有效数据频繁项的实时检测;和其他方法相比,复杂度低、检测可靠性高。  相似文献   

19.
大数据时代高校数字教学资源整合策略   总被引:1,自引:0,他引:1  
该文分析了高校数字教学资源整合的意义以及整合资源的来源,进而提出在大数据环境下资源整合的策略:高校数字教学资源必须运用云计算等先进的网络技术,来解决整合过程中遇到的安全性、硬件资源等难题;还要通过提高资源库建设、管理部门工作人员的知识、服务水平,大力宣传校内资源库的优势等措施,来提高数字教学资源的利用效率。  相似文献   

20.
本文分析了云计算环境下的大数据存储与处理优化的策略,优化大数据存储可以提高性能、降低成本、提升可扩展性。通过对云计算和大数据技术的融合趋势,以及现有挑战和问题,深入阐述了存储优化策略、数据分区、压缩、副本管理等,以降低存储成本。通过案例研究和实验结果,验证了这些策略的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号