split cpu parts in permute_pooled_embedding_ops for cpu_only (#987)

RabbitWhite1 · facebook-github-bot · commit 0221cd8813ab · 2022-03-29T20:23:58.000-07:00
Summary: As specified in [CMakeLists.txt](https://github.com/pytorch/FBGEMM/blob/c3a26e17e7c514041ae3d08f39d0e19063614869/fbgemm_gpu/CMakeLists.txt#L239), "src/permute_pooled_embedding_ops_gpu.cpp" will only compile when "NOT FBGEMM_CPU_ONLY", which means the method "permute_pooled_embs_auto_grad" won't be generated when --cpu_only. However, this method is used by torchrec's column_wise sharding. The pr mentioned in #950 cannot work because of not using m.def to define permute_pooled_embs_auto_grad. Pull Request resolved: #987 Reviewed By: jianyuh Differential Revision: D34984810 Pulled By: geyyer fbshipit-source-id: f3730cc69f760a414e8a9dfcf4f843a545b15756
diff --git a/fbgemm_gpu/CMakeLists.txt b/fbgemm_gpu/CMakeLists.txt
@@ -228,6 +228,7 @@ set(fbgemm_gpu_sources_cpu
     src/jagged_tensor_ops_cpu.cpp
     src/input_combine_cpu.cpp
     src/layout_transform_ops_cpu.cpp
+    src/permute_pooled_embedding_ops_cpu.cpp
     src/quantize_ops_cpu.cpp
     src/sparse_ops_cpu.cpp)
 
diff --git a/fbgemm_gpu/fbgemm_gpu/permute_pooled_embedding_modules.py b/fbgemm_gpu/fbgemm_gpu/permute_pooled_embedding_modules.py
@@ -16,6 +16,9 @@
     # pyre-ignore[21]
     from fbgemm_gpu import open_source  # noqa: F401
 except Exception:
+    torch.ops.load_library(
+        "//deeplearning/fbgemm/fbgemm_gpu:permute_pooled_embedding_ops_cpu"
+    )
     torch.ops.load_library(
         "//deeplearning/fbgemm/fbgemm_gpu:permute_pooled_embedding_ops_gpu"
     )
diff --git a/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embedding_ops.h b/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embedding_ops.h
@@ -23,4 +23,18 @@ at::Tensor permute_pooled_embs_gpu(
     const at::Tensor& permute_list,
     const at::Tensor& inv_offset_dim_list,
     const at::Tensor& inv_permute_list);
+
+at::Tensor permute_pooled_embs_auto_grad_cpu(
+    const at::Tensor& pooled_embs,
+    const at::Tensor& offset_dim_list,
+    const at::Tensor& permute_list,
+    const at::Tensor& inv_offset_dim_list,
+    const at::Tensor& inv_permute_list);
+
+at::Tensor permute_pooled_embs_auto_grad_gpu(
+    const at::Tensor& pooled_embs,
+    const at::Tensor& offset_dim_list,
+    const at::Tensor& permute_list,
+    const at::Tensor& inv_offset_dim_list,
+    const at::Tensor& inv_permute_list);
 } // namespace fbgemm_gpu
diff --git a/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embs_function.h b/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embs_function.h
@@ -4,3 +4,70 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
+
+#pragma once
+
+#include <ATen/ATen.h>
+#include <torch/script.h>
+
+namespace fbgemm_gpu {
+
+using torch::autograd::AutogradContext;
+using torch::autograd::Variable;
+using torch::autograd::variable_list;
+
+template <torch::autograd::Variable (*permute_pooled_embs_op)(
+    const at::Tensor&, // [B_local][Sum_T_global(D)]
+    const at::Tensor&,
+    const at::Tensor&,
+    const at::Tensor&,
+    const at::Tensor&)>
+class PermutePooledEmbsFunction
+    : public torch::autograd::Function<
+          PermutePooledEmbsFunction<permute_pooled_embs_op>> {
+ public:
+  static Variable forward(
+      AutogradContext* ctx,
+      const at::Tensor& pooled_embs, // [B_local][Sum_T_global(D)]
+      const at::Tensor& offset_dim_list,
+      const at::Tensor& permute_list,
+      const at::Tensor& inv_offset_dim_list,
+      const at::Tensor& inv_permute_list) {
+    ctx->saved_data["offset_dim_list"] = offset_dim_list;
+    ctx->saved_data["permute_list"] = permute_list;
+    ctx->saved_data["inv_offset_dim_list"] = inv_offset_dim_list;
+    ctx->saved_data["inv_permute_list"] = inv_permute_list;
+    TORCH_CHECK(
+        offset_dim_list.scalar_type() == at::ScalarType::Long,
+        "offset_dim_list needs to have long/int64 type");
+    TORCH_CHECK(
+        permute_list.scalar_type() == at::ScalarType::Long,
+        "permute_list needs to have long/int64 type");
+    return permute_pooled_embs_op(
+        pooled_embs,
+        offset_dim_list,
+        permute_list,
+        inv_offset_dim_list,
+        inv_permute_list);
+  }
+  static variable_list backward(
+      AutogradContext* ctx,
+      variable_list grad_output) {
+    const auto& offset_dim_list = ctx->saved_data["offset_dim_list"].toTensor();
+    const auto& permute_list = ctx->saved_data["permute_list"].toTensor();
+    const auto& inv_offset_dim_list =
+        ctx->saved_data["inv_offset_dim_list"].toTensor();
+    const auto& inv_permute_list =
+        ctx->saved_data["inv_permute_list"].toTensor();
+    variable_list grad_inputs(5);
+    grad_inputs[0] = permute_pooled_embs_op(
+        grad_output[0],
+        inv_offset_dim_list,
+        inv_permute_list,
+        offset_dim_list,
+        permute_list);
+    return grad_inputs;
+  }
+};
+
+} // namespace fbgemm_gpu
diff --git a/fbgemm_gpu/src/permute_pooled_embedding_ops_cpu.cpp b/fbgemm_gpu/src/permute_pooled_embedding_ops_cpu.cpp
@@ -4,3 +4,74 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
+#include <ATen/ATen.h>
+#include <ATen/core/op_registration/op_registration.h>
+#include <c10/util/irange.h>
+#include <torch/script.h>
+#include <vector>
+
+#include "fbgemm_gpu/permute_pooled_embedding_ops.h"
+#include "fbgemm_gpu/permute_pooled_embs_function.h"
+#include "fbgemm_gpu/sparse_ops_utils.h"
+
+using Tensor = at::Tensor;
+
+namespace fbgemm_gpu {
+
+using torch::autograd::AutogradContext;
+using torch::autograd::Variable;
+using torch::autograd::variable_list;
+
+Tensor permute_pooled_embs_cpu(
+    const Tensor& pooled_embs, // [B_local][Sum_T_global(D)]
+    const Tensor& offset_dim_list,
+    const Tensor& permute_list,
+    const Tensor& inv_offset_dim_list,
+    const Tensor& inv_permute_list) {
+  TORCH_CHECK(
+      offset_dim_list.scalar_type() == at::ScalarType::Long,
+      "offset_dim_list needs to have long/int64 type")
+  TORCH_CHECK(
+      permute_list.scalar_type() == at::ScalarType::Long,
+      "permute_list needs to have long/int64 type")
+  auto permute = permute_list.data_ptr<int64_t>();
+  const auto n = permute_list.numel();
+  std::vector<int64_t> dims;
+  dims.reserve(n - 1);
+  for (const auto i : c10::irange(1, n)) {
+    dims.push_back(offset_dim_list[i].item<int64_t>());
+  }
+  auto ts = pooled_embs.tensor_split(dims, 1);
+  std::vector<Tensor> permuted_ts;
+  permuted_ts.reserve(n);
+  for (const auto i : c10::irange(n)) {
+    permuted_ts.push_back(ts[permute[i]]);
+  }
+  return at::cat(permuted_ts, 1);
+}
+
+Tensor permute_pooled_embs_auto_grad_cpu(
+    const Tensor& pooled_embs,
+    const Tensor& offset_dim_list,
+    const Tensor& permute_list,
+    const Tensor& inv_offset_dim_list,
+    const Tensor& inv_permute_list) {
+  return PermutePooledEmbsFunction<permute_pooled_embs_cpu>::apply(
+      pooled_embs,
+      offset_dim_list,
+      permute_list,
+      inv_offset_dim_list,
+      inv_permute_list);
+}
+} // namespace fbgemm_gpu
+
+TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
+  m.def(
+      "permute_pooled_embs(Tensor pooled_embs, Tensor offset_dim_list, Tensor permute_list, Tensor inv_offset_dim_list, Tensor inv_permute_list) -> Tensor");
+  DISPATCH_TO_CPU("permute_pooled_embs", fbgemm_gpu::permute_pooled_embs_cpu);
+  m.def(
+      "permute_pooled_embs_auto_grad(Tensor pooled_embs, Tensor offset_dim_list, Tensor permute_list, Tensor inv_offset_dim_list, Tensor inv_permute_list) -> Tensor");
+  DISPATCH_TO_CPU(
+      "permute_pooled_embs_auto_grad",
+      fbgemm_gpu::permute_pooled_embs_auto_grad_cpu);
+}
diff --git a/fbgemm_gpu/src/permute_pooled_embedding_ops_gpu.cpp b/fbgemm_gpu/src/permute_pooled_embedding_ops_gpu.cpp
@@ -11,98 +11,13 @@
 #include <vector>
 
 #include "fbgemm_gpu/permute_pooled_embedding_ops.h"
+#include "fbgemm_gpu/permute_pooled_embs_function.h"
 #include "fbgemm_gpu/sparse_ops_utils.h"
 
 using Tensor = at::Tensor;
 
 namespace fbgemm_gpu {
 
-Tensor permute_pooled_embs_cpu(
-    const Tensor& pooled_embs, // [B_local][Sum_T_global(D)]
-    const Tensor& offset_dim_list,
-    const Tensor& permute_list,
-    const Tensor& inv_offset_dim_list,
-    const Tensor& inv_permute_list) {
-  TORCH_CHECK(
-      offset_dim_list.scalar_type() == at::ScalarType::Long,
-      "offset_dim_list needs to have long/int64 type")
-  TORCH_CHECK(
-      permute_list.scalar_type() == at::ScalarType::Long,
-      "permute_list needs to have long/int64 type")
-  auto permute = permute_list.data_ptr<int64_t>();
-  const auto n = permute_list.numel();
-  std::vector<int64_t> dims;
-  dims.reserve(n - 1);
-  for (const auto i : c10::irange(1, n)) {
-    dims.push_back(offset_dim_list[i].item<int64_t>());
-  }
-  auto ts = pooled_embs.tensor_split(dims, 1);
-  std::vector<Tensor> permuted_ts;
-  permuted_ts.reserve(n);
-  for (const auto i : c10::irange(n)) {
-    permuted_ts.push_back(ts[permute[i]]);
-  }
-  return at::cat(permuted_ts, 1);
-}
-
-using torch::autograd::AutogradContext;
-using torch::autograd::Variable;
-using torch::autograd::variable_list;
-
-template <torch::autograd::Variable (*permute_pooled_embs_op)(
-    const Tensor&, // [B_local][Sum_T_global(D)]
-    const Tensor&,
-    const Tensor&,
-    const Tensor&,
-    const Tensor&)>
-class PermutePooledEmbsFunction
-    : public torch::autograd::Function<
-          PermutePooledEmbsFunction<permute_pooled_embs_op>> {
- public:
-  static Variable forward(
-      AutogradContext* ctx,
-      const Tensor& pooled_embs, // [B_local][Sum_T_global(D)]
-      const Tensor& offset_dim_list,
-      const Tensor& permute_list,
-      const Tensor& inv_offset_dim_list,
-      const Tensor& inv_permute_list) {
-    ctx->saved_data["offset_dim_list"] = offset_dim_list;
-    ctx->saved_data["permute_list"] = permute_list;
-    ctx->saved_data["inv_offset_dim_list"] = inv_offset_dim_list;
-    ctx->saved_data["inv_permute_list"] = inv_permute_list;
-    TORCH_CHECK(
-        offset_dim_list.scalar_type() == at::ScalarType::Long,
-        "offset_dim_list needs to have long/int64 type");
-    TORCH_CHECK(
-        permute_list.scalar_type() == at::ScalarType::Long,
-        "permute_list needs to have long/int64 type");
-    return permute_pooled_embs_op(
-        pooled_embs,
-        offset_dim_list,
-        permute_list,
-        inv_offset_dim_list,
-        inv_permute_list);
-  }
-  static variable_list backward(
-      AutogradContext* ctx,
-      variable_list grad_output) {
-    const auto& offset_dim_list = ctx->saved_data["offset_dim_list"].toTensor();
-    const auto& permute_list = ctx->saved_data["permute_list"].toTensor();
-    const auto& inv_offset_dim_list =
-        ctx->saved_data["inv_offset_dim_list"].toTensor();
-    const auto& inv_permute_list =
-        ctx->saved_data["inv_permute_list"].toTensor();
-    variable_list grad_inputs(5);
-    grad_inputs[0] = permute_pooled_embs_op(
-        grad_output[0],
-        inv_offset_dim_list,
-        inv_permute_list,
-        offset_dim_list,
-        permute_list);
-    return grad_inputs;
-  }
-};
-
 Tensor permute_pooled_embs_auto_grad_gpu(
     const Tensor& pooled_embs,
     const Tensor& offset_dim_list,
@@ -117,30 +32,10 @@ Tensor permute_pooled_embs_auto_grad_gpu(
       inv_permute_list);
 }
 
-Tensor permute_pooled_embs_auto_grad_cpu(
-    const Tensor& pooled_embs,
-    const Tensor& offset_dim_list,
-    const Tensor& permute_list,
-    const Tensor& inv_offset_dim_list,
-    const Tensor& inv_permute_list) {
-  return PermutePooledEmbsFunction<permute_pooled_embs_cpu>::apply(
-      pooled_embs,
-      offset_dim_list,
-      permute_list,
-      inv_offset_dim_list,
-      inv_permute_list);
-}
 } // namespace fbgemm_gpu
 
 TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
-  m.def(
-      "permute_pooled_embs(Tensor pooled_embs, Tensor offset_dim_list, Tensor permute_list, Tensor inv_offset_dim_list, Tensor inv_permute_list) -> Tensor");
   DISPATCH_TO_CUDA("permute_pooled_embs", fbgemm_gpu::permute_pooled_embs_gpu);
-  m.def(
-      "permute_pooled_embs_auto_grad(Tensor pooled_embs, Tensor offset_dim_list, Tensor permute_list, Tensor inv_offset_dim_list, Tensor inv_permute_list) -> Tensor");
-  DISPATCH_TO_CPU(
-      "permute_pooled_embs_auto_grad",
-      fbgemm_gpu::permute_pooled_embs_auto_grad_cpu);
   DISPATCH_TO_CUDA(
       "permute_pooled_embs_auto_grad",
       fbgemm_gpu::permute_pooled_embs_auto_grad_gpu);