|
|
1
1
从整数索引计算curX、curY、curZ似乎很简单,方法如下:
如果你想用运行C++的CPU来测试以上内容,
是的,生成数十亿个CUDA线程可能是次优的。
一个典型的解决方法是为某个外部循环的每次迭代生成CUDA线程,但在CUDA内核内部编写内部循环,即编写
例如,当xCircles=yCircles=zCircles=1000时,可以启动1000x1000个CUDA线程的网格,并在内核内部编写运行1000次迭代的内部循环。 |