代码之家 › 专栏 › 技术社区 › aerin

为什么GPU的矩阵乘法速度比CPU快?[关闭]

pytorch matrix-multiplication gpu parallel-processing tensorflow

-1

aerin · 技术社区 · 7 年前

我用GPU已经有一段时间了,但现在我很好奇。

为什么GPU的矩阵乘法比CPU快得多?是因为并行处理吗?但我没有写任何并行处理代码。它是自动完成的吗?

任何直觉/高级解释都会受到赞赏!谢谢。

1 回复 | 直到 7 年前

coder3101 7 年前

GPU能够进行很多并行计算。比CPU能做的要多得多。看看这个例子,向量相加或矩阵相加的更简单的例子,比如说1百万个元素。

使用CPU,假设您最多可以运行100个线程: (100多了,不过我们假设一下)

在一个典型的多线程示例中,假设您对所有线程进行并行添加。

我的意思是:

c[0] = a[0] + b[0] //let's do it on thread 0
c[1] = a[1] + b[1] //let's do it on thread 1
c[101] = a[101] + b[101] //let's do it on thread 1

我们之所以能够这样做,是因为C[0]的值不依赖于除A[0]和B[0]以外的任何其他值。所以每一个添加都是独立的。因此,我们能够轻松地将任务并行化。

正如您在上面的示例中看到的,同时添加100个不同元素可以节省您的时间。这样,添加所有元素需要1米/100=10000步。

现在考虑一下今天的GPU大约有2048个线程,所有线程都可以在恒定时间内独立地执行2048个不同的操作。所以给了我一个鼓励。

在矩阵乘法的例子中。您可以对计算进行并行处理,因为GPU有更多的线程,并且在每个线程中都有多个块。因此,许多计算都是并行的,因此计算速度很快。

但我没有为我的GTX1080编写任何并行处理!它是自己做的吗?

实际上,几乎所有机器学习框架都使用所有可能操作的并行实现。这是通过CUDA编程实现的,NVIDIA API在NVIDIA GPU上进行并行计算。因此,您不需要显式地编写它,它都是在低级别完成的,而且您甚至不知道这一点。

是的,这并不意味着你写的C++程序会自动并行化,仅仅因为你有一个GPU。不需要,您需要使用CUDA编写它,然后只有它将被并行化,但是大多数编程框架都有它,所以从您的端部不需要它。

推荐文章

Saffy · 如何在IterableDataset上应用最小最大缩放?

1 年前

sanjeev mk · 通过索引从Pytorch或Numpy 2D数组中快速删除多行的方法

1 年前

Anonymous · 如何为零维火炬张量赋值?

1 年前

JohnnyWang97 · getattr引起的有趣错误

1 年前

Kamugg · 在PyTorch中使用不同分辨率图像训练DeepLabV3的最佳实践

1 年前

Stocavista · 无法在python中将float 64转换为float 32

2 年前

efwefwefwefwefw wefwefwefwef · 如何在PyTorch Conv1d层中仅在一侧应用填充?

2 年前

Okhr · 运行时错误:CUDA错误:在带有GTX 1660 Super的Debian 12虚拟机上不支持此操作

2 年前

Fatemeh · 如何从使用nn训练和保存的模型加载检查点。DataParallel到不使用nn的模型上。DataParallel?

2 年前

Twenkid · 将GPT2 h5型号转换为割炬,以转换为ggml形状不匹配

2 年前