simplify CuVec implementations and interface for purpose of ND-tensor

pluskid · pluskid · commit b9319ccd21f5 · 2014-12-19T15:50:11.000+08:00
diff --git a/src/cuda/constraints.jl b/src/cuda/constraints.jl
@@ -2,14 +2,14 @@
 # apply L2 constraint
 ############################################################
 
-function apply_l2_cons!{T <: FloatingPoint}(backend::GPUBackend, blob::CuTensorBlob{T}, 
+function apply_l2_cons!{T <: FloatingPoint}(backend::GPUBackend, blob::CuTensorBlob{T},
                                             coef::FloatingPoint, ninputs::Integer, nunits::Integer)
   # we allocate a bit of temporary memory here
   # we could instead also store this in the cons type
   # but that would double the memory footprint of a network
   # which is prohibitive for large models!
-  # -- 
-  # NOTE stokasto: 
+  # --
+  # NOTE stokasto:
   # an even better alternative would be to write
   # a dedicated kernel for normalization
   # but since the weight matrices are usually small
@@ -18,24 +18,23 @@ function apply_l2_cons!{T <: FloatingPoint}(backend::GPUBackend, blob::CuTensorB
   # I also tested using cublas cublasSnorm2 but that was way slower
   # than computing all norms using gemm
   @assert(ninputs*nunits == length(blob))
-  width, height, channels, num = size(blob)
   # allocate
   tmpA = make_blob(backend, T, size(blob)...)
   onesv = make_blob(backend, ones(T, ninputs, 1, 1, 1))
   tmp_norm = make_blob(backend, T, (nunits, 1, 1, 1))
   tmp_norm_host = zeros(T, nunits)
-  # copy blob so that it stays intact 
+  # copy blob so that it stays intact
   copy!(tmpA, blob)
 
   # we compute the squared norm of all colums of matrix A as:
   #  ||A||^2 = transpose(A .* A) * ones(size(A))
   # square blob inplace
-  CuVec.mul!(backend, T, tmpA.ptr.p, tmpA.ptr.p, width*height, channels, num)
+  CuVec.mul!(backend, T, tmpA.ptr.p, tmpA.ptr.p, length(blob))
   # and reduce via gemv to get the sum
-  CuBLAS.gemm(backend.cublas_ctx, CuBLAS.OP_T, CuBLAS.OP_N, nunits, 1, ninputs, 
+  CuBLAS.gemm(backend.cublas_ctx, CuBLAS.OP_T, CuBLAS.OP_N, nunits, 1, ninputs,
               convert(T, 1), tmpA.ptr, ninputs, onesv.ptr, ninputs, convert(T, 0), tmp_norm.ptr, nunits)
-  # copy back for doing the norm size check on the cpu 
-  copy!(tmp_norm_host, tmp_norm) 
+  # copy back for doing the norm size check on the cpu
+  copy!(tmp_norm_host, tmp_norm)
 
   for i = 1:nunits
     # calculate offset in blob vector
diff --git a/src/cuda/kernels/elementwise.impl b/src/cuda/kernels/elementwise.impl
@@ -1,25 +1,22 @@
 #define ELEMWISE_BOUNDS_AND_INDEX \
-  int s = threadIdx.x + blockIdx.x * blockDim.x; \
-  int k = threadIdx.y + blockIdx.y * blockDim.y; \
-  int n = threadIdx.z + blockIdx.z * blockDim.z; \
-  if (s >= spatial_dim || k >= channels || n >= num) \
-    return; \
-  int idx = s + spatial_dim * (k + channels * n)
+  int idx = threadIdx.x + blockIdx.x * blockDim.x; \
+  if (idx >= len) \
+    return
 
 template <typename T>
-__device__ void add_scal(T *array, T scal, int spatial_dim, int channels, int num) {
+__device__ void add_scal(T *array, T scal, int len) {
   ELEMWISE_BOUNDS_AND_INDEX;
   array[idx] += scal;
 }
 template <typename T>
-__device__ void mul_scal(T *array, T scal, int spatial_dim, int channels, int num) {
+__device__ void mul_scal(T *array, T scal, int len) {
   ELEMWISE_BOUNDS_AND_INDEX;
   array[idx] *= scal;
 }
 
 #define DEF_ELEMWISE_OP(NAME, OP) \
   template <typename T> \
-  __device__ void elem_ ## NAME(T *X, T *Y, int spatial_dim, int channels, int num) { \
+  __device__ void elem_ ## NAME(T *X, T *Y, int len) { \
     ELEMWISE_BOUNDS_AND_INDEX; \
     X[idx] = X[idx] OP Y[idx]; \
   }
@@ -30,23 +27,23 @@ DEF_ELEMWISE_OP(sub, -)
 DEF_ELEMWISE_OP(div, /)
 
 template <typename T>
-__device__ void elem_div2(T *X, T *Y, int spatial_dim, int channels, int num) {
+__device__ void elem_div2(T *X, T *Y, int len) {
   ELEMWISE_BOUNDS_AND_INDEX;
   Y[idx] = X[idx] / Y[idx];
 }
 
 template <typename T1, typename T2>
-__device__ void elem_pow(T1 *X, T2 p, int spatial_dim, int channels, int num) {
+__device__ void elem_pow(T1 *X, T2 p, int len) {
   ELEMWISE_BOUNDS_AND_INDEX;
   X[idx] = pow(X[idx], p);
 }
 
 #define DEF_ELEMWISE_API(NAME) \
-  __global__ void elem_ ## NAME ## _float(float *X, float *Y, int spatial_dim, int channels, int num) { \
-    elem_##NAME(X, Y, spatial_dim, channels, num); \
+  __global__ void elem_ ## NAME ## _float(float *X, float *Y, int len) { \
+    elem_##NAME(X, Y, len); \
   } \
-  __global__ void elem_ ## NAME ## _double(double *X, double *Y, int spatial_dim, int channels, int num) { \
-    elem_##NAME(X, Y, spatial_dim, channels, num); \
+  __global__ void elem_ ## NAME ## _double(double *X, double *Y, int len) { \
+    elem_##NAME(X, Y, len); \
   }
 
 extern "C" {
@@ -58,31 +55,31 @@ DEF_ELEMWISE_API(div)
 DEF_ELEMWISE_API(div2)
 
 
-__global__ void add_scal_float(float *X, float Y, int spatial_dim, int channels, int num) {
-  add_scal(X, Y, spatial_dim, channels, num);
+__global__ void add_scal_float(float *X, float Y, int len) {
+  add_scal(X, Y, len);
 }
-__global__ void add_scal_double(double *X, double Y, int spatial_dim, int channels, int num) {
-  add_scal(X, Y, spatial_dim, channels, num);
+__global__ void add_scal_double(double *X, double Y, int len) {
+  add_scal(X, Y, len);
 }
 
-__global__ void mul_scal_float(float *X, float Y, int spatial_dim, int channels, int num) {
-  mul_scal(X, Y, spatial_dim, channels, num);
+__global__ void mul_scal_float(float *X, float Y, int len) {
+  mul_scal(X, Y, len);
 }
-__global__ void mul_scal_double(double *X, double Y, int spatial_dim, int channels, int num) {
-  mul_scal(X, Y, spatial_dim, channels, num);
+__global__ void mul_scal_double(double *X, double Y, int len) {
+  mul_scal(X, Y, len);
 }
 
-__global__ void elem_pow_fi(float *X, int p, int spatial_dim, int channels, int num) {
-  elem_pow(X, p, spatial_dim, channels, num);
+__global__ void elem_pow_fi(float *X, int p, int len) {
+  elem_pow(X, p, len);
 }
-__global__ void elem_pow_di(double *X, int p, int spatial_dim, int channels, int num) {
-  elem_pow(X, p, spatial_dim, channels, num);
+__global__ void elem_pow_di(double *X, int p, int len) {
+  elem_pow(X, p, len);
 }
-__global__ void elem_pow_ff(float *X, float p, int spatial_dim, int channels, int num) {
-  elem_pow(X, p, spatial_dim, channels, num);
+__global__ void elem_pow_ff(float *X, float p, int len) {
+  elem_pow(X, p, len);
 }
-__global__ void elem_pow_dd(double *X, double p, int spatial_dim, int channels, int num) {
-  elem_pow(X, p, spatial_dim, channels, num);
+__global__ void elem_pow_dd(double *X, double p, int len) {
+  elem_pow(X, p, len);
 }
 
 } // extern "C"
diff --git a/src/cuda/layers/power.jl b/src/cuda/layers/power.jl
@@ -7,8 +7,7 @@ function forward(backend::GPUBackend, state::PowerLayerState, inputs::Vector{Blo
     input = inputs[i]
     output = state.blobs[i]
 
-    width, height, channels, num = size(input)
-    spatial_dim = width*height
+    len = length(input)
     data_type = eltype(input)
 
     # output = input
@@ -22,18 +21,17 @@ function forward(backend::GPUBackend, state::PowerLayerState, inputs::Vector{Blo
 
     if state.layer.shift != 0
       # output += shift
-      CuVec.add_scal!(backend, data_type, output.ptr.p, convert(data_type, state.layer.shift),
-          spatial_dim, channels, num)
+      CuVec.add_scal!(backend, data_type, output.ptr.p, convert(data_type, state.layer.shift), len)
     end
 
     # output = output ^ power
     if state.layer.power != 1
       if state.layer.power == 2
-        CuVec.mul!(backend, data_type, output.ptr.p, output.ptr.p, spatial_dim, channels, num)
+        CuVec.mul!(backend, data_type, output.ptr.p, output.ptr.p, len)
       else
         CuVec.pow!(backend, data_type, output.ptr.p,
             isinteger(state.layer.power) ? int(state.layer.power) : convert(data_type, state.layer.power),
-            spatial_dim, channels, num)
+            len)
       end
     end
   end
@@ -45,8 +43,7 @@ function backward(backend::GPUBackend, state::PowerLayerState,
   data_type = eltype(inputs[1])
   pow_scale = convert(data_type,state.layer.power * state.layer.scale)
   for i = 1:length(inputs)
-    width, height, channels, num = size(inputs[i])
-    spatial_dim = width*height
+    len = length(inputs[i])
 
     diff = diffs[i]
     if state.layer.power == 1 || state.layer.scale == 0
@@ -64,32 +61,28 @@ function backward(backend::GPUBackend, state::PowerLayerState,
         CuBLAS.axpy(backend.cublas_ctx, length(input), convert(data_type, pow_scale*state.layer.scale),
             input.ptr, 1, diff.ptr, 1)
         if state.layer.shift != 0
-          CuVec.add_scal!(backend, data_type, diff.ptr.p, pow_scale * state.layer.shift,
-            spatial_dim, channels, num)
+          CuVec.add_scal!(backend, data_type, diff.ptr.p, pow_scale * state.layer.shift, len)
         end
       elseif state.layer.shift == 0
         # dO/dI = power * scale * (scale * I) ^ (power - 1)
         #       = power * O / I
         CuBLAS.axpy(backend.cublas_ctx, length(input), convert(data_type,state.layer.power),
             output.ptr, 1, diff.ptr, 1)
-        CuVec.div!(backend, data_type, diff.ptr.p, input.ptr.p, spatial_dim, channels, num)
+        CuVec.div!(backend, data_type, diff.ptr.p, input.ptr.p, len)
       else
         # general case
         # dO/dI = power * scale * (scale * I + shift) ^ (power - 1)
         #       = power * scale * O / (scale * I + shift)
         copy!(diff, input)
         if state.layer.scale != 1
-          CuBLAS.scal(backend.cublas_ctx, length(diff), 
+          CuBLAS.scal(backend.cublas_ctx, length(diff),
               convert(data_type,state.layer.scale), diff.ptr, 1)
         end
-        CuVec.add_scal!(backend, data_type, diff.ptr.p, state.layer.shift, 
-            spatial_dim, channels, num)
-        CuVec.div2!(backend, data_type, output.ptr.p, diff.ptr.p,
-            spatial_dim, channels, num)
+        CuVec.add_scal!(backend, data_type, diff.ptr.p, state.layer.shift, len)
+        CuVec.div2!(backend, data_type, output.ptr.p, diff.ptr.p, len)
         CuBLAS.scal(backend.cublas_ctx, length(diff), pow_scale, diff.ptr, 1)
       end
     end
-    CuVec.mul!(backend, data_type, diff.ptr.p, state.blobs_diff[i].ptr.p,
-        spatial_dim, channels, num)
+    CuVec.mul!(backend, data_type, diff.ptr.p, state.blobs_diff[i].ptr.p, len)
   end
 end
diff --git a/src/cuda/utils/math.jl b/src/cuda/utils/math.jl
@@ -2,50 +2,45 @@ export CuVec
 module CuVec
 using ..Mocha
 
-function cuda_geometry(sp_dim::Int, chann::Int, num::Int)
-  x_block = int(ceil(float64(sp_dim)/CUDA.THREADS_PER_BLOCK_X))
-  y_block = int(ceil(float64(chann)/CUDA.THREADS_PER_BLOCK_Y))
-  z_block = int(ceil(float64(num)/CUDA.THREADS_PER_BLOCK_Z))
-  return ((x_block,y_block,z_block),
-          (CUDA.THREADS_PER_BLOCK_X,CUDA.THREADS_PER_BLOCK_Y,CUDA.THREADS_PER_BLOCK_Z))
+const THREADS_PER_BLOCK = 128
+function cuda_geometry(len::Int)
+  x_block = int(ceil(float64(len)/THREADS_PER_BLOCK))
+  return (x_block, THREADS_PER_BLOCK)
 end
 
 for (ctype, dtype) in [(:float, Float32), (:double, Float64)]
   # define add!, sub!, mul!, div!, div2!
   for name in [:add, :sub, :mul, :div, :div2]
     @eval begin
-      function $(symbol("$(name)!"))(backend::GPUBackend, ::Type{$dtype}, X, Y,
-          spatial_dim::Int, channels::Int, num::Int)
+      function $(symbol("$(name)!"))(backend::GPUBackend, ::Type{$dtype}, X, Y, len::Int)
         X = convert(Ptr{Void},X)
         Y = convert(Ptr{Void},Y)
-        cuda_dim = cuda_geometry(spatial_dim, channels, num)
+        cuda_dim = cuda_geometry(len)
         kernel = backend.mocha.$(symbol("elem_$(name)_$ctype"))
-        CUDA.launch(kernel, cuda_dim..., (X, Y, spatial_dim, channels, num))
+        CUDA.launch(kernel, cuda_dim..., (X, Y, len))
       end
     end
   end
 
   # define add_scal!
   @eval begin
-    function add_scal!(backend::GPUBackend, ::Type{$dtype}, X, Y,
-        spatial_dim::Int, channels::Int, num::Int)
+    function add_scal!(backend::GPUBackend, ::Type{$dtype}, X, Y, len::Int)
       X = convert(Ptr{Void}, X)
       Y = convert($dtype, Y)
-      cuda_dim = cuda_geometry(spatial_dim, channels, num)
+      cuda_dim = cuda_geometry(len)
       kernel = backend.mocha.$(symbol("add_scal_$ctype"))
-      CUDA.launch(kernel, cuda_dim..., (X,Y,spatial_dim,channels,num))
+      CUDA.launch(kernel, cuda_dim..., (X,Y,len))
     end
   end
 
   # define mul_scal!
   @eval begin
-    function mul_scal!(backend::GPUBackend, ::Type{$dtype}, X, Y,
-        spatial_dim::Int, channels::Int, num::Int)
+    function mul_scal!(backend::GPUBackend, ::Type{$dtype}, X, Y, len::Int)
       X = convert(Ptr{Void}, X)
       Y = convert($dtype, Y)
-      cuda_dim = cuda_geometry(spatial_dim, channels, num)
+      cuda_dim = cuda_geometry(len)
       kernel = backend.mocha.$(symbol("mul_scal_$ctype"))
-      CUDA.launch(kernel, cuda_dim..., (X,Y,spatial_dim,channels,num))
+      CUDA.launch(kernel, cuda_dim..., (X,Y,len))
     end
   end
 end
@@ -54,34 +49,30 @@ end
 for name in [:add, :sub, :mul, :div, :div2]
   @eval begin
     function $(symbol("$(name)!")){T}(backend::GPUBackend, X::CuTensorBlob{T}, Y::CuTensorBlob{T})
-      width, height, channels, num = get_whcn(X)
-      sp_dim = width*height
-      $(symbol("$(name)!"))(backend, T, X.ptr.p, Y.ptr.p, sp_dim, channels, num)
+      len = length(X)
+      $(symbol("$(name)!"))(backend, T, X.ptr.p, Y.ptr.p, len)
     end
   end
 end
 function add_scal!{T}(backend::GPUBackend, X::CuTensorBlob{T}, Y)
   Y = convert(T, Y)
-  width, height, channels, num = get_whcn(X)
-  sp_dim = width*height
-  add_scal!(backend, T, X.ptr.p, Y, sp_dim, channels, num)
+  len = length(X)
+  add_scal!(backend, T, X.ptr.p, Y, len)
 end
 function mul_scal!{T}(backend::GPUBackend, X::CuTensorBlob{T}, Y)
   Y = convert(T, Y)
-  width, height, channels, num = get_whcn(X)
-  sp_dim = width*height
-  mul_scal!(backend, T, X.ptr.p, Y, sp_dim, channels, num)
+  len = length(X)
+  mul_scal!(backend, T, X.ptr.p, Y, len)
 end
 
 for (postfix, dt1, dt2) in [(:fi, Float32, Int), (:di, Float64, Int),
                             (:ff, Float32, Float32), (:dd, Float64, Float64)]
   @eval begin
-    function pow!(backend::GPUBackend, ::Type{$dt1}, X, Y::$dt2,
-        spatial_dim::Int, channels::Int, num::Int)
+    function pow!(backend::GPUBackend, ::Type{$dt1}, X, Y::$dt2, len::Int)
       X = convert(Ptr{Void}, X)
-      cuda_dim = cuda_geometry(spatial_dim, channels, num)
+      cuda_dim = cuda_geometry(len)
       kernel = backend.mocha.$(symbol("elem_pow_$postfix"))
-      CUDA.launch(kernel, cuda_dim..., (X,Y,spatial_dim,channels,num))
+      CUDA.launch(kernel, cuda_dim..., (X,Y,len))
     end
   end
 end
diff --git a/test/cuda/cuvec.jl b/test/cuda/cuvec.jl
@@ -1,8 +1,7 @@
 function test_cuvec(backend::Backend, T)
   println("-- Testing CuVec Utilities{$T}")
-  width, height, channels, num = (5,6,7,8)
-  spatial_dim = width*height
-  dims = (width, height, channels, num)
+  dims = (5,6,7,8)
+  len = prod(dims)
   eps = 1e-5
 
   X = rand(T, dims)
@@ -12,19 +11,19 @@ function test_cuvec(backend::Backend, T)
 
   println("    > mul!")
   Vec.mul!(X, Y)
-  CuVec.mul!(backend, T, X_blob.ptr.p, Y_blob.ptr.p, spatial_dim, channels, num)
+  CuVec.mul!(backend, T, X_blob.ptr.p, Y_blob.ptr.p, len)
   X2 = similar(X)
   copy!(X2, X_blob)
   @test all(abs(X-X2) .< eps)
 
   println("    > pow!")
   Vec.pow!(X, 2)
-  CuVec.pow!(backend, T, X_blob.ptr.p, 2, spatial_dim, channels, num)
+  CuVec.pow!(backend, T, X_blob.ptr.p, 2, len)
   copy!(X2, X_blob)
   @test all(abs(X-X2) .< eps)
 
   Vec.pow!(X, convert(T, 0.75))
-  CuVec.pow!(backend, T, X_blob.ptr.p, convert(T, 0.75), spatial_dim, channels, num)
+  CuVec.pow!(backend, T, X_blob.ptr.p, convert(T, 0.75), len)
   copy!(X2, X_blob)
   @test all(abs(X-X2) .< eps)
 end