![]() |
1
5
我想你已经回答了你自己的问题。一般来说,CUDA/OpenCL加速了大规模的并行操作。我们使用CUDA执行各种DSP操作(FFT、FIR),并看到了数量级的加速。几百美元的数量级加速是一种偷窃。虽然像MKL和OpenMP这样的专用CPU库给了我们相当大的速度提升,但是CUDA/OpenCL要快得多。 检查 here |
![]() |
2
1
例如,在2009年的SIGGRAPH中,他们展示了 CUDA implementation of Vray for Maya . 实时光线跟踪和预览质量在20 fps与200美元的卡?我认为这很有帮助。 |
![]() |
3
1
是的,这是CUDA的主要领域。如果满足下列条件,则效率最高:
|
![]() |
4
1
CUDA已经被用来极大地提高计算机断层扫描的速度 FASTRA project 例如,性能与 (不仅仅是四核台式机!)用消费级硬件组装而成,只需几千欧元。 我知道的其他研究课题是群优化和实时音频处理。 一般来说:该技术可用于 每一个 域在哪里 全部的 必须对数据进行处理 因为所有的核心都将执行相同的操作。如果你的问题归结为这种操作,你就可以去:)。可惜不是所有的东西都属于这一类。。。 |
|
5
1
并行一般有两种类型:任务并行和数据并行。前者CPU加速,后者GPU加速。其原因是CPU具有复杂的分支预测、无序执行硬件和许多阶段管道,使它们能够并行执行独立任务(例如四核上的4个独立任务)。另一方面,GPU剥离了大部分的控制逻辑,取而代之的是大量的ALU。因此,对于具有数据并行性的任务(例如简单的矩阵加法),GPU可以利用其许多ALU来并行地操作这些数据。像汉明距离这样的东西对GPU来说是很好的,因为你只是在计算两个字符串之间的差异数,其中每个字符只是基于位置不同,并且独立于同一字符串中的任何其他字符。 |
![]() |
Christian Bouwense · 进程如何跟踪其局部变量 7 年前 |
![]() |
BeeOnRope · 在x86中是否允许访问跨越零边界的内存? 7 年前 |
|
Lee.HW · chrono库的实现 7 年前 |
![]() |
Zephyr · 虚拟索引物理标记缓存同义词 7 年前 |
![]() |
Uchia Itachi · VIPT缓存:TLB和缓存之间的连接? 7 年前 |