代码之家 › 专栏 › 技术社区 › Nico Schertler

OpenMP按需嵌套并行

openmp parallel-processing c++

Nico Schertler · 技术社区 · 7 年前

我有一个与OpenMP并行处理的作业列表:

void processAllJobs()
{
#pragma omp parallel for
    for(int i = 0; i < n; ++i) 
        processJob(i);
}

所有作业都有一些连续的部分,如果单独调用,这些部分可以并行:

void processJob(int i)
{
    for(int iteration = 0; iteration < iterationCount; ++iteration)
    {
        doSomePreparation(i);
        std::vector<Subtask> subtasks = getSubtasks(i);
#pragma omp parallel for
        for(int j = 0; j < substasks.size(); ++j)
            subtasks[j].Process();
        doSomePostProcessing(i)
    }
}

当我奔跑 processAllJobs() 为外部循环(每个作业)创建线程,内部循环(子任务)在线程中按顺序完成。这一切都很好,而且是有意的。

有时,有非常大的工作需要花费很多时间来处理。足够长,这样外部循环中的所有其他线程都已经在最后一个线程之前完成,并且不做任何事情。是否有一种方法可以重新使用未使用的线程,以便在完成后立即将内部循环并行化?我想象一下,每当输入内部并行区域时,都会检查未使用线程的数量。

我无法预测一份工作会持续多久。这可能不仅仅是一个长期的工作——也许有两三个。

0 回复 | 直到 7 年前

Michael Klemm 7 年前

您对问题的描述听起来更像是OpenMP任务将是一个更好的选择。您的代码如下所示:

void processAllJobs()
{
#pragma omp parallel master
    for(int i = 0; i < n; ++i) 
#pragma omp task
        processJob(i);
}

然后该作业的处理过程如下所示:

void processJob(int i)
{
    for(int iteration = 0; iteration < iterationCount; ++iteration)
    {
        doSomePreparation(i);
        std::vector<Subtask> subtasks = getSubtasks(i);
#pragma omp taskloop   // add grainsize() clause, if Process() is very short
        for(int j = 0; j < substasks.size(); ++j)
            subtasks[j].Process();
        doSomePostProcessing(i)
    }
}

这样,您就可以获得自然的负载平衡(假设您有足够的任务),而不必依赖嵌套的并行性。

推荐文章

AstralHex · 矩阵乘法代码工作不正常

1 年前

Baba Dan Constantin · SSE4.1在矩阵4x4乘法上比SSE3慢?

1 年前

Giogre · 为包含许多数值字段的简单“struct”重载比较运算符

1 年前

einpoklum · 定义一个并不真正提供now()函数的std::chrono Clock是“合法的”吗?

1 年前

Fishie · 作为类成员的智能指针是否仍然自动释放?[关闭]

1 年前

Die4Toast · 递归调用成员箭头运算符->

1 年前

Angle.Bracket · 如何用C++将UTF-8文件名写入MS Windows控制台?

1 年前

Anka HanÄ±m · 关于结构和动态数组地址的问题

1 年前

Adam Barnes · 我如何定义一个基于constexpr函数返回值进行限制的概念?

1 年前

user2138149 · 为什么我不能获取包含多个元素的结构体中某些元素的地址?[副本]

1 年前