pytorch · fmassa · Oct 27, 2020 · Oct 26, 2020 · Oct 26, 2020 · Oct 27, 2020
diff --git a/torchvision/csrc/DeformConv.h b/torchvision/csrc/DeformConv.h
@@ -1,89 +1,105 @@
 #pragma once
 
-#include "cpu/vision_cpu.h"
-
-#ifdef WITH_CUDA
-#include "cuda/vision_cuda.h"
-#endif
-#ifdef WITH_HIP
-#include "hip/vision_cuda.h"
+#if defined(WITH_CUDA) || defined(WITH_HIP)
+#include "autocast.h"
 #endif
 
-at::Tensor DeformConv2d_forward(
+// TODO: put this stuff in torchvision namespace
+
+at::Tensor deform_conv2d(
     const at::Tensor& input,
     const at::Tensor& weight,
     const at::Tensor& offset,
     const at::Tensor& bias,
-    const std::pair<int, int>& stride,
-    const std::pair<int, int>& padding,
-    const std::pair<int, int>& dilation,
-    const int groups,
-    const int offset_groups) {
-  if (input.is_cuda()) {
-#if defined(WITH_CUDA) || defined(WITH_HIP)
-    return DeformConv2d_forward_cuda(
-        input.contiguous(),
-        weight.contiguous(),
-        offset.contiguous(),
-        bias.contiguous(),
-        stride,
-        padding,
-        dilation,
-        groups,
-        offset_groups);
-#else
-    TORCH_CHECK(false, "Not compiled with GPU support");
-#endif
-  }
-  return DeformConv2d_forward_cpu(
+    const int64_t stride_h,
+    const int64_t stride_w,
+    const int64_t pad_h,
+    const int64_t pad_w,
+    const int64_t dilation_h,
+    const int64_t dilation_w,
+    const int64_t groups,
+    const int64_t offset_groups) {
+  static auto op = c10::Dispatcher::singleton()
+                       .findSchemaOrThrow("torchvision::deform_conv2d", "")
+                       .typed<decltype(deform_conv2d)>();
+  return op.call(
       input.contiguous(),
       weight.contiguous(),
       offset.contiguous(),
       bias.contiguous(),
-      stride,
-      padding,
-      dilation,
+      stride_h,
+      stride_w,
+      pad_h,
+      pad_w,
+      dilation_h,
+      dilation_w,
       groups,
       offset_groups);
 }
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> DeformConv2d_backward(
-    const at::Tensor& grad,
+#if defined(WITH_CUDA) || defined(WITH_HIP)
+at::Tensor DeformConv2d_autocast(
     const at::Tensor& input,
     const at::Tensor& weight,
     const at::Tensor& offset,
     const at::Tensor& bias,
-    const std::pair<int, int>& stride,
-    const std::pair<int, int>& padding,
-    const std::pair<int, int>& dilation,
-    const int groups,
-    const int offset_groups) {
-  if (grad.is_cuda()) {
-#if defined(WITH_CUDA) || defined(WITH_HIP)
-    return DeformConv2d_backward_cuda(
-        grad.contiguous(),
-        input.contiguous(),
-        weight.contiguous(),
-        offset.contiguous(),
-        bias.contiguous(),
-        stride,
-        padding,
-        dilation,
-        groups,
-        offset_groups);
-#else
-    TORCH_CHECK(false, "Not compiled with GPU support");
+    const int64_t stride_h,
+    const int64_t stride_w,
+    const int64_t pad_h,
+    const int64_t pad_w,
+    const int64_t dilation_h,
+    const int64_t dilation_w,
+    const int64_t groups,
+    const int64_t offset_groups) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
+  return deform_conv2d(
+             at::autocast::cached_cast(at::kFloat, input),
+             at::autocast::cached_cast(at::kFloat, weight),
+             at::autocast::cached_cast(at::kFloat, offset),
+             at::autocast::cached_cast(at::kFloat, bias),
+             stride_h,
+             stride_w,
+             pad_h,
+             pad_w,
+             dilation_h,
+             dilation_w,
+             groups,
+             offset_groups)
+      .to(input.scalar_type());
+}
 #endif
-  }
-  return DeformConv2d_backward_cpu(
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+_deform_conv2d_backward(
+    const at::Tensor& grad,
+    const at::Tensor& input,
+    const at::Tensor& weight,
+    const at::Tensor& offset,
+    const at::Tensor& bias,
+    const int64_t stride_h,
+    const int64_t stride_w,
+    const int64_t pad_h,
+    const int64_t pad_w,
+    const int64_t dilation_h,
+    const int64_t dilation_w,
+    const int64_t groups,
+    const int64_t offset_groups) {
+  static auto op =
+      c10::Dispatcher::singleton()
+          .findSchemaOrThrow("torchvision::_deform_conv2d_backward", "")
+          .typed<decltype(_deform_conv2d_backward)>();
+  return op.call(
       grad.contiguous(),
       input.contiguous(),
       weight.contiguous(),
       offset.contiguous(),
       bias.contiguous(),
-      stride,
-      padding,
-      dilation,
+      stride_h,
+      stride_w,
+      pad_h,
+      pad_w,
+      dilation_h,
+      dilation_w,
       groups,
       offset_groups);
 }
@@ -105,14 +121,18 @@ class DeformConv2dFunction
       int64_t dilation_w,
       int64_t groups,
       int64_t offset_groups) {
-    auto output = DeformConv2d_forward(
+    at::AutoNonVariableTypeMode g; // TODO: check if necessary
+    auto output = deform_conv2d(
         input,
         weight,
         offset,
         bias,
-        {stride_h, stride_w},
-        {pad_h, pad_w},
-        {dilation_h, dilation_w},
+        stride_h,
+        stride_w,
+        pad_h,
+        pad_w,
+        dilation_h,
+        dilation_w,
         groups,
         offset_groups);
 
@@ -149,15 +169,18 @@ class DeformConv2dFunction
     auto groups = ctx->saved_data["groups"].toInt();
     auto offset_groups = ctx->saved_data["offset_groups"].toInt();
 
-    auto grads = DeformConv2d_backward(
+    auto grads = _deform_conv2d_backward(
         grad_output[0],
         input,
         weight,
         offset,
         bias,
-        {stride_h, stride_w},
-        {pad_h, pad_w},
-        {dilation_h, dilation_w},
+        stride_h,
+        stride_w,
+        pad_h,
+        pad_w,
+        dilation_h,
+        dilation_w,
         groups,
         offset_groups);
     auto grad_input = std::get<0>(grads);
@@ -181,32 +204,3 @@ class DeformConv2dFunction
     };
   }
 };
-
-at::Tensor deform_conv2d(
-    const at::Tensor& input,
-    const at::Tensor& weight,
-    const at::Tensor& offset,
-    const at::Tensor& bias,
-    int64_t stride_h,
-    int64_t stride_w,
-    int64_t pad_h,
-    int64_t pad_w,
-    int64_t dilation_h,
-    int64_t dilation_w,
-    int64_t groups,
-    int64_t offset_groups) {
-  auto result = DeformConv2dFunction::apply(
-      input,
-      weight,
-      offset,
-      bias,
-      stride_h,
-      stride_w,
-      pad_h,
-      pad_w,
-      dilation_h,
-      dilation_w,
-      groups,
-      offset_groups);
-  return result[0];
-}
diff --git a/torchvision/csrc/cpu/DeformConv_cpu.cpp b/torchvision/csrc/cpu/DeformConv_cpu.cpp
@@ -233,11 +233,14 @@ at::Tensor DeformConv2d_forward_cpu(
     const at::Tensor& weight_param,
     const at::Tensor& offset_param,
     const at::Tensor& bias,
-    std::pair<int, int> stride,
-    std::pair<int, int> pad,
-    std::pair<int, int> dilation,
-    int n_weight_grps,
-    int n_offset_grps) {
+    int64_t stride_h,
+    int64_t stride_w,
+    int64_t pad_h,
+    int64_t pad_w,
+    int64_t dil_h,
+    int64_t dil_w,
+    int64_t n_weight_grps,
+    int64_t n_offset_grps) {
   at::Tensor input = input_param;
   at::Tensor offset = offset_param;
   at::Tensor weight = weight_param;
@@ -263,15 +266,6 @@ at::Tensor DeformConv2d_forward_cpu(
   int weight_h = weight.size(2);
   int weight_w = weight.size(3);
 
-  int stride_h = stride.first;
-  int stride_w = stride.second;
-
-  int pad_h = pad.first;
-  int pad_w = pad.second;
-
-  int dil_h = dilation.first;
-  int dil_w = dilation.second;
-
   int ker_h = dil_h * (weight_h - 1) + 1;
   int ker_w = dil_w * (weight_w - 1) + 1;
   int out_h = ((in_h + 2 * pad_h - ker_h) / stride_h) + 1;
@@ -683,9 +677,12 @@ static std::tuple<at::Tensor, at::Tensor> deform_conv2d_backward_input_cpu(
     at::Tensor weight,
     at::Tensor offset,
     at::Tensor grad_out,
-    std::pair<int, int> stride,
-    std::pair<int, int> pad,
-    std::pair<int, int> dilation,
+    int stride_h,
+    int stride_w,
+    int pad_h,
+    int pad_w,
+    int dil_h,
+    int dil_w,
     int n_weight_grps,
     int n_offset_grps,
     int n_parallel_imgs) {
@@ -700,15 +697,6 @@ static std::tuple<at::Tensor, at::Tensor> deform_conv2d_backward_input_cpu(
   int weight_h = weight.size(2);
   int weight_w = weight.size(3);
 
-  int stride_h = stride.first;
-  int stride_w = stride.second;
-
-  int pad_h = pad.first;
-  int pad_w = pad.second;
-
-  int dil_h = dilation.first;
-  int dil_w = dilation.second;
-
   long out_h = (in_h + 2 * pad_h - (dil_h * (weight_h - 1) + 1)) / stride_h + 1;
   long out_w = (in_w + 2 * pad_w - (dil_w * (weight_w - 1) + 1)) / stride_w + 1;
 
@@ -813,9 +801,12 @@ static at::Tensor deform_conv2d_backward_parameters_cpu(
     const at::Tensor& weight,
     at::Tensor offset,
     const at::Tensor& grad_out,
-    std::pair<int, int> stride,
-    std::pair<int, int> pad,
-    std::pair<int, int> dilation,
+    int stride_h,
+    int stride_w,
+    int pad_h,
+    int pad_w,
+    int dil_h,
+    int dil_w,
     int n_weight_grps,
     int n_offset_grps,
     int n_parallel_imgs) {
@@ -830,15 +821,6 @@ static at::Tensor deform_conv2d_backward_parameters_cpu(
   int weight_h = weight.size(2);
   int weight_w = weight.size(3);
 
-  int stride_h = stride.first;
-  int stride_w = stride.second;
-
-  int pad_h = pad.first;
-  int pad_w = pad.second;
-
-  int dil_h = dilation.first;
-  int dil_w = dilation.second;
-
   long out_h = grad_out.size(2);
   long out_w = grad_out.size(3);
 
@@ -922,11 +904,14 @@ DeformConv2d_backward_cpu(
     const at::Tensor& weight,
     const at::Tensor& offset,
     const at::Tensor& bias,
-    std::pair<int, int> stride,
-    std::pair<int, int> pad,
-    std::pair<int, int> dilation,
-    int n_weight_grps,
-    int n_offset_grps) {
+    int64_t stride_h,
+    int64_t stride_w,
+    int64_t pad_h,
+    int64_t pad_w,
+    int64_t dil_h,
+    int64_t dil_w,
+    int64_t n_weight_grps,
+    int64_t n_offset_grps) {
   const int batch_sz = input.size(0);
   const int n_parallel_imgs =
       get_greatest_divisor_below_bound(batch_sz, kMaxParallelImgs);
@@ -936,9 +921,12 @@ DeformConv2d_backward_cpu(
       weight,
       offset,
       grad_out,
-      stride,
-      pad,
-      dilation,
+      stride_h,
+      stride_w,
+      pad_h,
+      pad_w,
+      dil_h,
+      dil_w,
       n_weight_grps,
       n_offset_grps,
       n_parallel_imgs);
@@ -951,9 +939,12 @@ DeformConv2d_backward_cpu(
       weight,
       offset,
       grad_out,
-      stride,
-      pad,
-      dilation,
+      stride_h,
+      stride_w,
+      pad_h,
+      pad_w,
+      dil_h,
+      dil_w,
       n_weight_grps,
       n_offset_grps,
       n_parallel_imgs);