代码之家 › 专栏 › 技术社区 › Eugene Smith

CUDA优化问题

cuda optimization

Eugene Smith · 技术社区 · 15 年前

   void multiply(const int* v_in, const int* w_in, int n_v, int n_w, int* w_out)
   {
      for(int i=0; i<n_w; i++)
      {
         int sum=0;
         for(int j=0; j<n_v; j++)
            sum += (w_in[i]*v_in[j])>>1;
         w_out[i]=sum;
      }
   }

假设n,n,w~10^6。显然,在CUDA中至少有十几种相同的方法可以做到这一点,有不同的方法可以将(n_v*n w)操作细分为线程,有或没有共享内存。。。从理论上讲,哪条路应该是最快的?

1 回复 | 直到 15 年前

Anycorn 15 年前

最简单的:

   void multiply(const int* v_in, const int* w_in, int n_v, int n_w, int* w_out)
   {
      int *v = shared; // dynamic
      for(int i = block.rank; i < n_w; i += block.size)
      {
         int w = w_in[i]; // coalesced
         int sum=0;
         for(int j=0; j<n_v; j += block.size) { // assumption
            v[block.rank] = v_in[j+block.rank];
            __synch();
            for(int k = 0; k < block.size; ++k) 
                sum += (w*v[k])>>1;  // 
            __synch(); // ouch
         }
         w_out[i] = sum; // ditto
      }
   }

推荐文章

Mr. W · 如何生成一个重复的整数,如二进制中的1001001001,时间复杂度为O(n)?

1 年前

giantjenga · 优化整数向量到二进制向量的转换

1 年前

Costinean Sebastian · 如何优化使用for循环处理大型数组的MATLAB脚本的执行时间?"

1 年前

Daniel Lobo · 使用约束进行优化

1 年前

Imyaf · 在什么条件下,在组装时对“if”和“if-else”进行比较?

1 年前

Sergio · python中大量数字的乘法

1 年前

Kiran Raj R · 为什么尽管使用了useMemo和useCallback,我的React组件却意外地重新渲染?

1 年前

Sergey Dev · 临时表与表变量

2 年前

JoReyner · 单字符元素的空间差异:列表<字符>与列表<字符串>

2 年前

John · 减少C中的内存消耗++

2 年前