首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向R语言的分布式流处理系统设计与实现
引用本文:高官涛,郑小盈,李明齐.面向R语言的分布式流处理系统设计与实现[J].科学技术与工程,2016,16(2).
作者姓名:高官涛  郑小盈  李明齐
作者单位:中国科学院上海高等研究院, 中国科学院大学,中国科学院上海高等研究院,中国科学院上海高等研究院
基金项目:国家自然科学基金项目(面上项目,重点项目,重大项目);中国科学院重大资助项目
摘    要:为了使得在数据分析领域广泛使用的R语言能够应用于大规模数据的分布式流处理计算,基于Spark Streaming框架,设计和实现了一个面向R语言的分布式流处理系统。系统提出了一套完备的R/Java跨语言交互模型,实现了R语言程序和Java程序的互相调用,从而使得R语言程序可以运行在Java平台上,改进了R语言在大规模数据处理和并发计算等方面的不足。系统也提供了Spark Streaming的R语言编程接口,提高了后者的易用性。通过实例验证了该系统的可行性和实用性。

关 键 词:流处理    分布式系统    并行计算    R语言    Spark  Streaming  
收稿时间:9/1/2015 12:00:00 AM
修稿时间:1/6/2016 12:00:00 AM

Design and Implementation of the Distributed Stream Processing System for R Language
Gao Guantao,and Li Minqi.Design and Implementation of the Distributed Stream Processing System for R Language[J].Science Technology and Engineering,2016,16(2).
Authors:Gao Guantao  and Li Minqi
Institution:Shanghai Advanced Research Institute, Chinese Academy of Science
Abstract:R language is widely used in data analysis. In order to make R jobs run on large-scale streaming datasets, we design and implement a distributed stream processing system based on the Spark Streaming framework. The system provides an R/Java cross-language interaction interface, which makes the R code and the Java code able to invoke each other and eventually makes the R codes run on the Java platform. The system also provides an R programming interface for Spark Streaming, which both improves the ability of R on the large-scale data processing and parallel computing and makes the Spark Streaming framework easier to use. Finally, a network work-count example is showed to demonstrate the feasibility and practicability of the system.
Keywords:stream processing  distributed system  parallel computing  R language  Spark Streaming
本文献已被 CNKI 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号