代码之家 › 专栏 › 技术社区 › January

如何在r中并行化包的函数

parallel-foreach parallel-processing foreach r

January · 技术社区 · 6 年前

我想将正在处理的包的一部分并行化。应该使用哪些包和哪些语法使包在不同的体系结构上灵活和可用?我的问题在于 sapply() 调用如下模拟代码所示:

.heavyStuff <- function(x) { 
   # do a lot of work
   Sys.sleep(1)
}

listOfX <- 1:20

userFunc1 <- function(listOfX) {    
  res <- sapply(listOfX, .heavyStuff)
  return(res)
}

根据不同的指南,我炮制了如下:

userFunc2 <- function(listOfX, dopar.arg=2) {
  if(requireNamespace("doParallel")) {
    doParallel::registerDoParallel(dopar.arg)
    res <- foreach(i=1:length(listOfX)) %dopar% {
       .heavyStuff(listOfX[[i]])
    }
    names(res) <- names(listOfX)
  } else {
    res <- sapply(listOfX, .heavyStuff)
  }
  return(res)
}

问题:

我能在包中安全地使用这样的代码吗?它能在一系列平台上正常工作吗?
有没有办法避免 foreach() 构建?我更喜欢用一个像花哨的或是重叠的函数。然而,并行库中的结构似乎更为特定于平台。
如果 dopar.arg==NULL ,尽管 the introduction to doParallel says that 没有任何争论“你将得到三个工人和类unix系统您将获得相当于系统核心数一半的工作线程数。”

1 回复 | 直到 6 年前

HenrikB 6 年前

作为 future 框架,我建议你看看 future.apply 包装,例如

library(future.apply)
userFunc2 <- function(listOfX) {    
  res <- future_sapply(listOfX, .heavyStuff)
  return(res)
}

默认情况是事情按顺序运行,但是如果用户希望,他们可以使用任何他们想要的并行未来后端,例如。

library(future)
plan(multiprocess)    # parallel on local machine - all cores by default

library(future.batchtools)
plan(batchtools_sge)  # parallel on an SGE compute cluster

library(future)
plan(sequential)      # sequentially

设计模式是由您决定什么并行化,而用户怎样并行化。

推荐文章

Matt · 获取数组长度并推入每个对象

2 年前

Pouya · Foreach循环不添加计数器

2 年前

Andrea De Luca · 修改forEach中的元素使条目加倍

3 年前

XFMW · 为什么我的foreach循环不能统一编译?[重复]

3 年前

Mark Roworth · 未知类型IEnumerable上的C#泛型foreach

3 年前

dunubh · 在node_modules/ejs/lib/ejs中找不到“<%”的匹配关闭标记。js代表数组。foreach()

3 年前

Red · 为什么我的字体大小不适合香草js?

3 年前

Jonas Bro · ForEach内部的ForEach Javascript

3 年前

aRTURIUS · Terraform for_每个问题的数据类型

3 年前

Yerkin · 条件不适用于PHP和mysqli

3 年前