首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于MapReduce的视频爬虫系统研究
引用本文:孔涛,曹丙章,邱荷花.基于MapReduce的视频爬虫系统研究[J].华中科技大学学报(自然科学版),2015(5).
作者姓名:孔涛  曹丙章  邱荷花
作者单位:1. 中国船舶重工集团公司第709研究所,湖北武汉,430074
2. 华中科技大学计算机科学与技术学院,湖北武汉,430074
基金项目:国家自然科学基金资助项目(61232004).
摘    要:针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.

关 键 词:视频  爬虫  分布式  Hadoop框架  MapReduce计算模型  Hadoop分布式文件系统

Video content crawler system research based on MapReduce
Kong Tao,Cao Bingzhang,Qiu Hehua.Video content crawler system research based on MapReduce[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2015(5).
Authors:Kong Tao  Cao Bingzhang  Qiu Hehua
Abstract:
Keywords:video  crawler  distribution  Hadoop framework  MapReduce computation model  HDFS
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号