COS沙龙第38期

嘉宾:刘传海(普渡大学统计系教授)

主题:SupR—让R语言走向多线程并行计算

时间:2016年7月2日

嘉宾简介

下载 (2)

刘传海,1994年获哈佛大学统计学博士学位,1995年至2005年在Bell实验室工作,2005年起担任普渡大学统计系教授,研究兴趣包括统计推断,统计计算和应用统计等。早期对迭代型统计算法,如 EM 算法和 MCMC 等有过深入研究,其主要成果可见2010年与 F. Liang 和 R. J. Carroll 合著的专著 Advanced Markov Chain Monte Carlo Methods。在统计学的基础研究方面,提出了一套全新的统计推断框架,其主要成果论述于与 R. Martin 合著的专著 Inferential Models: Reasoning with Uncertainty 中。最近的研究主题为大规模数据的统计计算,实验性地搭建了一套支持多线程和集群计算的R语言计算平台——SupR(读作Super-R)。个人主页为http://www.stat.purdue.edu/~chuanhai/

内容简介

本次讲座将基于第九届R会议上邱怡轩关于SupR的报告进行更详细的介绍。以下为报告的主要内容:

R语言是一个深受众多数据科学家喜爱的数据分析软件和平台,然而随着数据规模的增大,它的一些弊端也逐渐显露。例如,R对并行计算和分布式数据存储的支持不太理想,这使得它在大规模数据的分析上有所欠缺。即使目前有若干支持R并行计算的扩展包,但它们大都是基于进程级别的并行,其劣势是内存占用大,通信成本高。

对于数据分析平台,理想的并行模式是在单机上进行多线程的并行(例如C/C++的OpenMP和Java的Thread类),集群上进行多机之间的通信,一个典型的例子就是目前非常流行的Apache Spark。至今为止R语言的官方版本尚不能很好地支持多线程并行,原因是R的解释器和内存调度不是线程安全的。但考虑到R语言长久的社区支持、软件包积累和庞大的用户群,如果能让R语言实现这样的并行机制,将能极大地节省数据分析者的开发成本。

为了解决这一难题,我们基于R的官方版本试验开发了一款同时支持多线程和分布式计算的修改版R——SupR。SupR对官方R在源代码级别上进行了较大规模的修改和补充,同时借鉴了Spark平台的诸多特性。为方便于R用户并适合大规模数据分析,目前工作致力于以下四个主要方面:

1. 保持R的语法和内部数据结构不变;

2. 提供类似于Java的多线程计算;

3. 增加类似于Spark的集群运算;

4. 支持内置的分布式文件系统。

SupR目前处于开发阶段,正式版将以开源软件的形式发布。当前的开发信息可以在http://www.stat.purdue.edu/~chuanhai/SupR/internal/index.html获取。我们希望SupR能吸引更多的开发者和使用者,将R语言真正带向大规模数据分析的世界。

对于感兴趣的朋友,欢迎订阅SupR的邮件列表:https://lists.purdue.edu/mailman/listinfo/supr

沙龙时间

2016年7月2日(周六) 15:00-17:00

沙龙流程

1. 来宾自我介绍(10-30分钟):每位来宾进行简单的自我介绍。

2. 嘉宾分享(60-90分钟):嘉宾围绕沙龙主题分享经验。

3. 提问与讨论(20分钟—30分钟):根据沙龙内容展开讨论,每位讨论者可先进行自我介绍,并对嘉宾所讲提出问题。

沙龙费用

免费

沙龙人数

50 人

沙龙地点

北京市海淀区清华大学。具体地点邮件/短信通知。

沙龙报名

1. 请点击本文下方“阅读原文”填写并提交报名表格;

2. 报名截止时间:2016年6月30日 18:00;

3. 每人限制报名一次,不可重复报名;

4. 如果报名人数过多,我们需要随机筛选,被选中的朋友会在6月30日(周四)24:00之前收到确认信息。

联系人

COS沙龙理事会

salonadmin@cos.name

 


文章转载自:http://www.aiweibang.com/yuedu/127202909.html