首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 562 毫秒
1.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

2.
提出了一种应用于流程工业的分布式海量报警管理系统,利用Hadoop平台的分布式可扩展特性实现了海量报警数据的可靠存储和高效处理.在数据存储层,通过合理的列式存储结构设计,实现了海量报警数据的分布式集群存储;在信息查询层,实现了类MapReduce过程的报警管理系统分布式并行查询模型;在功能应用层,根据业务需求实现了基本的报警管理功能模块.测试结果表明,面对海量报警数据的应用场景,基于Hadoop平台的分布式海量报警管理系统比传统报警管理系统具有更为出色的性能.  相似文献   

3.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

4.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

5.
根据ERF数据的特点结合分布式框架Hadoop针对海量数据的计算优势,改进了网络数据的解析模式和数据存储模式,完成了ERF网络数据自动上传。根据XML文件解析多种类型的网络数据、HBase存储数据和HBase数据导入与数据查询的优化等一系列网络数据自动化处理工作。提出了一种新的MapReduce解析二进制数据的算法,该方案有效的解决了MapReduce读取和解析二进制数据的问题,在此基础上实现的海量网络数据处理系统,解析效率较高,数据库存储和查询数据的速度较快,系统自动化运行且稳定性强,有良好的应用前景。  相似文献   

6.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

7.
为高效处理社交网络产生的海量数据, 并保证社交网的可扩展性, 将TF-IDF(Term Frequency-Inverse Document Frequency)算法进行MapReduce化设计, 并在Hadoop云平台上实现分布式的TF-IDF算法。利用该算法提取用户微博中的关键词, 再根据关键词发现用户的兴趣, 并对用户做相应的推荐。为验证分布式TF-IDF算法的有效性和可扩展性, 与TextRank算法的结果做对比。实验结果表明, 分布式TF-IDF算法提取的关键词能更准确地描述用户的特性, 同时具有良好的可扩展性。  相似文献   

8.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

9.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

10.
传统的套牌车识别算法通过串行工作方式在网格化城市交通监控系统所产生的大规模数据中进行两两比对实现套牌车检测,因此在处理海量数据时存在性能瓶颈问题.提出了一种新的基于Hadoop的MapReduce算法模型,该算法具有并行特征,通过引入多台硬件计算资源协同处理大规模数据下的套牌车检测问题,显著提高了计算性能.同时,采用基于动态旅行时间实时的时空窗口计算技术,能进一步提高算法的检测速度和识别精度.  相似文献   

11.
开发价值和污染风险并存是城市褐色土地的两面性,也是导致褐色土地再开发中冲突事件不断发生的主要原因.本文在明确城市褐色土地再开发中的利益相关者类型的基础上,分析了利益主体间的关系及其冲突类型,并引入博弈论对各利益主体间的冲突根源进行讨论,最后指出,从法律、资金、公众、政府等方面构建城市褐色土地再开发管治体系是促进褐色土地成功开发的有效途径.  相似文献   

12.
赵力 《科技信息》2009,(11):32-33
本文简要介绍了Web搜索引擎的基本原理、核心技术和处理流程,并详细介绍了相关组成技术的概念和系统整体工作流程。并基于c≠≠的全文索引引擎DotLucene软件包入手,简要介绍了Web网站站内信息搜索系统的基本开发过程和方法。  相似文献   

13.
基于PageRank算法的商业网站推广策略研究   总被引:1,自引:1,他引:0  
搜索引擎已经成为当前检索信息的重要工具.为了提高网站在搜索引擎中的排名,必须对网站进行优化。文章针对目前流行的Google搜索引擎,集中研究了网站结构对基于PageRank算法的网站搜索引擎排名产生的影响,并分析该算法在独立网站下的效果,提出了相应的优化策略,总结了PageRank算法存在的不足,这对促进网络信息获取技术向高精度、智能化方向发展提供了很大的参考价值。  相似文献   

14.
为有效解决元搜索引擎结果排序的问题,提出了一种基于样本加权的位置文本排序算法。分析了现有基础算法,并在充分考虑结构信息的基础上将记录的PageRank值转化为权值。结合文本信息及其在结果列表中的位置信息实现局部相似度的调整,对排序位置的相关分值进行了规范化处理。对摘要排序算法进行了改进,提出了查询词条匹配度和词条间关联度的概念。最后将各相关分值进行合并得到搜索结果的最终相关度。实验结果表明该方法的可行性和有效性。  相似文献   

15.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

16.
K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.  相似文献   

17.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号