排序方式: 共有94条查询结果,搜索用时 125 毫秒
71.
为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机梯度下降法的线性回归模型.首先,为清理智能配电终端产生的重复数据和不良数据,提出利用自适应近邻排序算法清除重复记录的数据,并利用K均值聚类的方法剔除异常数据和记录不完整的数据,然后利用F检验... 相似文献
72.
朴素贝叶斯分类算法是一种简单并且高效的分类算法,但条件独立性假设在现实中很难满足,导致其性能有所下降.为了解决该问题,本文在关联规则和置信度的基础上对该分类算法进行了改进.通过挖掘出来的关联规则和该规则的置信度,对不同的属性赋予不同的权重,同时实现了该分类算法的MapReduce化,从而在保持简单性的基础上有效地提高了朴素贝叶斯分类算法的分类性能.动车组运维实验表明:该算法提高了分类的准确率和效率. 相似文献
73.
李骏 《河北大学学报(自然科学版)》2021,41(2):212
针对大数据在线聚集执行时间长、执行性能及延迟调度性能较差的问题,提出基于MapReduce的大数据在线聚集优化程序设计.使用分片聚集方法使集群中所有机器的计算资源得到充分调用,采用子连接的启发式优先方法优化各节点本地执行连接任务关系运算,实现大数据在线聚集的并行连接.利用混合近似查询框架的大数据在线聚集动态切换机制及基于渐进近似估计的动态切换机制,降低混合近似查询切换误判率,增强大数据在线聚集的执行性能.实验结果表明,该方法设计的在线聚集优化程序在不同数据规模下的执行时间较小,同时在基本频繁查询性能方面具备显著优势. 相似文献
74.
恰当的产品市场占有率模型可以用于预测产品的市场竞争力,目前大多数模型和方法使用的数据集往往是来自调查、观测报告这些静态历史数据,不能很好的应对动态多变的网络软件市场.针对网络软件、游戏产品领域,首先提出了一种云计算下基于MapReduce编程模型的网络软件使用情况采集方法,根据网络软件产品更新频繁、用户群体大的特点,结合云平台强大的计算处理能力,可对不同网络地址段及时、灵活的统计产品使用信息,并利用马尔科夫预测方法对采集数据进行经济预测,为网络软件的相关企业提供必要的决策依据.最后给出了模型的简单应用实例,验证模型的可行性. 相似文献
75.
郑瑛 《西南民族大学学报(自然科学版)》2017,43(2):161-166
在传统的并行编程模型中,对大量数据如何进行并行计算、如何为每个任务分发数据、如何处理单点故障等问题,都需要大量的程序分析和设计,这些问题的有效处理都需要程序员显式地使用有关技术来解决.对于程序员来说,这是一项具有极大困难的工作,使得原本简单的运算反而变得非常复杂,这些问题的存在也在一定程度上制约了并行程序的普及.而MapReduce计算模型能有效地解决上述问题,阐述了Google的MapReduce计算模型的实现机制,并通过实例描述了该模型的执行过程. 相似文献
76.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率. 相似文献
77.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统. 相似文献
78.
针对云计算环境下很难确定出有助于实现良好性能的Hadoop参数集的问题,设计了一种MapReduce模拟器.首先,对Hadoop的各种参数进行建模;然后,集群读取元件从集群中读取参数,从而创建模拟的Hadoop集群环境;最后,利用作业跟踪器跟踪模拟的作业,并利用任务跟踪器运行单个任务.所设计的模拟器从多角度研究Hadoop应用的性能,集中模拟Hadoop的映射和化简行为,弥补了MRPerf设计的不足.在基准测试结果和用户自定义MapReduce应用中验证了模拟器的有效性. 相似文献
79.
当处理分布式、大规模的服务选择时,传统服务选择方法存在着效率不高和全局Qo S性能低下的问题。基于Map Reduce框架,设计了一种云环境下的海量服务选择方法以解决此问题。首先,基于Map Reduce框架,利用Skyline算法,筛选海量候选服务,生成Skyline服务库;其次,基于迭代式Map Reduce框架,运用多目标模拟退火算法,从所生成的Skyline服务库中优选Skyline服务,产生一组Pareto最优的组合服务;最后,依据用户的个性化和多样性需求,执行Top-k查询,优选出满足用户偏好的k个组合服务。该方法适应于具有分布式环境、高维Qo S的海量服务选择,能快速返回组合服务,且其全局Qo S较优。 相似文献
80.
社交网络中的重要节点对于信息的传播效率有着至关重要的作用,也是近年来的研究热点问题.同时,随着新媒体时代手机、微博、微信等新兴媒介日益变快的信息传播速度,政府部门和企业已经逐渐认识到通过识别社交网络中的重要节点对于管理和控制社交网络中的信息传播,在面向应急的非常规突发事件数据获取与分析中,有着举足轻重的作用.新媒体时代也扩展了人们社会活动的信息容量与交换速度,以MapReduce为代表的分布式计算系统在应急管理的大规模社交网络数据分析中也变得越来越普遍.为了便于应急管理中的信息传播控制,针对应急管理中大规模社交网络图上重要节点识别的关键问题,本文提出了一种新颖的基于轴节点选择策略的大图重要节点中介度近似计算方法和原型系统,并通过模拟数据和真实数据(包含一个连续六个月的真实社交网络数据集)进行了验证.实验结果表明,该方法能非常有效地找出社交网络上的重要节点,对于应急管理中的信息传播控制有着重要的作用. 相似文献