|
|
1
3
Nvidia没有发布任何关于设备如何在这个级别工作的信息。有一个叫做decuda的工具,它可以反编译cubins,所以你可以看到机器代码。如果我记得,立即进入指令流,至少在德库达可以推断的范围内。德库达的问题是它只适用于CUDA 2.3或更低版本。他们将CUDA3.0中的可执行文件格式改为ELF,而Decuda的维护时间很长。 最好的官方文件是 PTX documentation 但这记录了虚拟机isa,而不是真正的设备。 |
|
|
2
0
如果我记得正确的整数除法(例如)是非常昂贵的,有些浮点运算(如sinf(..)完全在硬件中实现,因此速度很快。 这篇演讲给了我一些启发:“计算物理的CUDA技巧” http://physics.bu.edu/~kbarros/talks/ |