代码之家 › 专栏 › 技术社区 › phimuemue

GPU(Geforce 9800)如何实现位整数操作?

bitwise-operators gpu cuda

phimuemue · 技术社区 · 15 年前

CUDA给了程序员编写类似 a & b | ~ c ( a , b , c 存在 unsigned int s)。

GPU在内部做什么?它是以某种方式在整数上“模拟”位操作,还是像在传统CPU上一样高效?

1 回复 | 直到 15 年前

wnbell 15 年前

根据 CUDA Programming Guide v2.3 (第5.1.1.1节)位操作全速运行(每时钟周期8次操作)。

整数算术

整数加法吞吐量为8 每个时钟周期的操作。

32位整数吞吐量乘法是每两个运算时钟周期,但MUL24提供24位带A的整数乘法每钟8次作业的投入循环。关于未来架构但是,MUL24将比 32位整数乘法,所以我们建议提供两粒,一粒使用MUL24和其他一般32位整数乘法, 由应用程序。

整数除模运算特别昂贵,应该尽可能避免或替换为尽可能按位操作: 如果n是2的幂,(i/n)是相当于(i>>log2(n))和(i%n) 相当于(i&(n-1)); 编译器将执行这些如果n是文本,则转换。

比较比较吞吐量,最小值,最大值为每时钟8个操作周期。

按位运算 任何位操作的吞吐量为8个操作每个时钟周期。

推荐文章

mike · 音频速率下的OpenCL/CUDA GPU计算-是否有足够快的方法可以在每个音频缓冲区从GPU读取一次?(即最低约43 FPS)

1 年前

sof · cuobjdump不发出PTX算术指令

1 年前

armagedescu · 内联结构初始化,“非静态成员必须相对于静态对象”

1 年前

sof · 矩阵乘法样本中共享存储器的放置

2 年前

asmo_192 · CUDA(Libtorch)和OpenGL互操作的怪异行为

2 年前

Okhr · 运行时错误:CUDA错误:在带有GTX 1660 Super的Debian 12虚拟机上不支持此操作

2 年前

Sampath · CUDA内核,用于查找1D阵列中大于特定阈值的值的最小和最大索引

2 年前

Rahn · 将GPU内存分配给类的成员变量的正确方法是什么?

2 年前

Marko GrdiniÄ · 如何在CuPy项目中包含Cutlass?

2 年前

Athanasios Margaris · 如何将CUDA线程与三重嵌套循环相关联?

2 年前