排序方式: 共有179条查询结果,搜索用时 46 毫秒
161.
162.
基于MapReduce的网络爬虫设计与实现 《山东科学》2015,28(2):101-107
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。 相似文献
163.
基于Hadoop框架的分布式存储、并行计算以及数据仓库建模等技术,构建Kylin多维分析平台,实现油气田注入井生产数据的统一存储、计算、分析功能,解决多表联合查询效率低、多数据库之间存在数据孤岛等问题。实现16个分散数据库的快速查询和管理优化,查询分析效率提升3倍。该平台可统一管理8×10~4余口注入井生产数据,业务分析时间由原来的1 d缩短到现在的5 s,查询时间为秒级响应。通过建立注入井生产数据多维分析模型,在中国石油天然气集团公司实现了注入井宏观管理分析、问题井管理分析、注入井生产运行分析等应用。实现了系统的快速响应,满足了高效分析需求。注入井生产数据分析粒度由原来的油田细化到单井,业务分析更为细致,能够实时掌握油气生产动态。 相似文献
164.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程. 相似文献
165.
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词. 相似文献
166.
通过对分布式作战仿真环境中资源特点的研究,总结分布式作战仿真环境对分布式文件系统的需求。在Web-based Distributed Authoring and Versioning(WebDAV)协议的基础上,提出了开放、可扩展的分布式文件管理系统模型,并针对分布式作战仿真的需求,对其进行必要扩充,并实现了基于Web的分布式文件管理系统。该系统支持异构系统下的文件管理,具有良好的可扩展性、清晰的层次结构及全局性的资源视图。以分布式作战环境中的武器模型资源为对象,实验表明该系统的访问效率基本满足分布式作战仿真环境的要求。 相似文献
167.
CorsairFS:一种面向校园网的分布式文件系统 总被引:2,自引:1,他引:1
描述了CorsairFS--一种针对校园网和企业内部网设计的专用分布式文件系统.通过采用可扩展的架构、分块存储方式和基于注册、汇报的自组织机制,系统在满足性能和吞吐量指标的前提下,具有更好的可扩展性和可管理性,能够提供同一数据的多种不同视图,允许在不移动数据的情况下对目录结构进行重构.系统针对大量用户的数据共享和存储的工作负载进行了优化,能有效地处理大量小文件的并发访问,并通过实验说明其能够更有效地利用存储空间,提供更好的数据传输性能,特别是面对大量小文件的情况. 相似文献
168.
<正>"云存储"是在云计算概念上延伸和发展的概念,是通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统.1校园进行视频联网监控的必要性 相似文献
169.
在线视频管理平台是为互联网用户提供的视频云服务平台,能够为全校师生提供视频文件存储、转码和封装服务,提供视频文件内容管理服务,提供网页视频播放器解决方案等.传统的文件系统已经不能满足该平台的海量存储的要求,通过对目前一些分布式文件系统进行研究对比,Cassandra分布式文件系统具有的模式灵活、真正的可扩展性等一些特点... 相似文献
170.
基于云计算的移动商业智能系统研究 总被引:1,自引:0,他引:1
针对传统商业智能系统在实时性、交互性和通用性上的不足,通过借鉴云计算强大的计算和存储能力,提出了一种Hadoop与关系数据库相结合的高实时移动商业智能系统解决方案.系统采用Hadoop架构替代数据仓库,实现了海量数据的分布式存储及分析计算,将高实时及高效请求交给处理效率更高的关系数据库,充分利用云计算的虚拟技术提升移动商业智能系统的海量数据处理能力;不仅降低了成本,更使得企业资源得到充分、灵活的应用,提高企业市场快速反应力与竞争力. 相似文献