代码之家 › 专栏 › 技术社区 › 89_Simple

用foreach函数并行计算

doparallel parallel-processing foreach r

89_Simple · 技术社区 · 6 年前

我有一个文件夹,其中有5000个csv文件,每个文件属于一个位置,包含1980年至2015年的每日降雨量。文件结构示例如下:

sample.file <- data.frame(location.id = rep(1001, times = 365 * 36), 
                      year = rep(1980:2015, each = 365),
                      day = rep(1:365, times = 36),
                      rainfall = sample(1:100, replace = T, 365 * 36))

我想看一份文件,计算每年的总降雨量并再次写入输出。我有多种方法可以做到这一点:

方法1

for(i in seq_along(names.vec)){

  name <- namees.vec[i]
  dat <- fread(paste0(name,".csv"))

  dat <- dat %>% dplyr::group_by(year) %>% dplyr::summarise(tot.rainfall = sum(rainfall))

 fwrite(dat, paste0(name,".summary.csv"), row.names = F)
}

my.files <- list.files(pattern = "*.csv")
dat <- lapply(my.files, fread)
dat <- rbindlist(dat)
dat.summary <- dat %>% dplyr::group_by(location.id, year) %>% 
               dplyr::summarise(tot.rainfall = sum(rainfall))

方法3:

foreach . 如何并行执行上述任务使用 do parallel 和 for each

2 回复 | 直到 6 年前

Bastien 6 年前

下面是你的骨架 foreach request .

require(foreach)
require(doSNOW)
cl <- makeCluster(10, # number of cores, don't use all cores your computer have
                  type="SOCK") # SOCK for Windows, FORK for linux
registerDoSNOW(cl)
clusterExport(cl, c("toto", "truc"), envir=environment()) # R object needed for each core
clusterEvalQ(cl, library(tcltk)) # libraries needed for each core
my.files <- list.files(pattern = "*.csv")
foreach(i=icount(my.files), .combine=rbind, inorder=FALSE) %dopar% {
  # read csv file
  # estimate total rain
  # write output
}
stopCluster(cl)

但是,当每次独立迭代的计算时间(CPU)高于其余的操作时,并行化就更好了。在您的情况下,改进可能很低,因为每个核心都需要有读写驱动器访问权限,而且写操作是物理操作,按顺序操作可能会更好(对于硬件来说更安全,最终在驱动器中为每个文件设置独立位置比为多个文件设置共享位置更有效,需要索引等等,以便在操作系统中区分它们--前面需要确认,这只是一个想法)。

HTH公司

Selcuk Akbas 6 年前

pbapply包是最简单的并行方法

library (pbapply)

mycl <- makeCluster(4)
mylist <- pblapply(my.files, fread, cl = mycl)

推荐文章

drainzerrr · Go锁定结构的一部分

7 年前

Minions · 如何在GridSearchCV中找到最佳进程数(…,n\u作业=…)?

7 年前

Azim · 使用java 8并行处理图像

7 年前

Andrei Suvorkov · 不使用size()方法的LinkedList拆分器

7 年前

Terra Omega · Pthreads:我的并行代码在一定数量后不会将线程传递到函数中

7 年前

user8005765 · Karatsuba-多项式与CUDA相乘

7 年前

Adi · 并行读取大型XSLT字符串

7 年前

Eduard Rostomyan · 为什么我的程序在1个线程上运行得比在8个线程上运行得快。C类++

7 年前

A.J · 同时运行两个python文件

7 年前

Kristofer · 当索引设置为私有时,如何确保访问缓冲区是私有的

7 年前