Use compile-time promotion to reduce optimized le op size & build time (#3534)

swolchok · facebook-github-bot · commit 6ce80877f38c · 2024-05-07T10:14:32.000-07:00
Summary:

Yet another optimized op.

Differential Revision: D57028967
diff --git a/kernels/optimized/cpu/op_le.cpp b/kernels/optimized/cpu/op_le.cpp
@@ -53,31 +53,26 @@ Tensor& opt_le_tensor_out(
               a.numel());
         });
   } else {
-    ScalarType common_type = promoteTypes(a_type, b_type);
     ET_SWITCH_REAL_TYPES_AND(
         Bool, a_type, ctx, "le.Tensor_out", CTYPE_A, [&]() {
           ET_SWITCH_REAL_TYPES_AND(
               Bool, b_type, ctx, "le.Tensor_out", CTYPE_B, [&]() {
+                using CTYPE_IN = typename torch::executor::
+                    promote_types<CTYPE_A, CTYPE_B>::type;
+                ET_DCHECK(
+                    CppTypeToScalarType<CTYPE_IN>::value ==
+                    promoteTypes(a_type, b_type));
                 ET_SWITCH_REAL_TYPES_AND(
-                    Bool, common_type, ctx, "le.Tensor_out", CTYPE_IN, [&]() {
-                      ET_SWITCH_REAL_TYPES_AND(
-                          Bool,
-                          out_type,
-                          ctx,
-                          "le.Tensor_out",
-                          CTYPE_OUT,
-                          [&]() {
-                            const size_t n = a.numel();
-                            const CTYPE_A* a_data = a.const_data_ptr<CTYPE_A>();
-                            const CTYPE_B* b_data = b.const_data_ptr<CTYPE_B>();
-                            CTYPE_OUT* out_data =
-                                out.mutable_data_ptr<CTYPE_OUT>();
-                            for (auto i = 0; i < n; ++i) {
-                              out_data[i] = static_cast<CTYPE_OUT>(
-                                  static_cast<CTYPE_IN>(a_data[i]) <=
-                                  static_cast<CTYPE_IN>(b_data[i]));
-                            }
-                          });
+                    Bool, out_type, ctx, "le.Tensor_out", CTYPE_OUT, [&]() {
+                      const size_t n = a.numel();
+                      const CTYPE_A* a_data = a.const_data_ptr<CTYPE_A>();
+                      const CTYPE_B* b_data = b.const_data_ptr<CTYPE_B>();
+                      CTYPE_OUT* out_data = out.mutable_data_ptr<CTYPE_OUT>();
+                      for (auto i = 0; i < n; ++i) {
+                        out_data[i] = static_cast<CTYPE_OUT>(
+                            static_cast<CTYPE_IN>(a_data[i]) <=
+                            static_cast<CTYPE_IN>(b_data[i]));
+                      }
                     });
               });
         });
diff --git a/kernels/optimized/cpu/op_sub.cpp b/kernels/optimized/cpu/op_sub.cpp
@@ -124,19 +124,17 @@ Tensor& opt_sub_out(
         using CTYPE_IN = typename torch::executor::
             promote_types<CTYPE_A, CTYPE_B, /*half_to_float*/ true>::type;
         ET_DCHECK(CppTypeToScalarType<CTYPE_IN>::value == common_type);
-          ET_SWITCH_REALH_TYPES(out_type, ctx, "sub.out", CTYPE_OUT, [&]() {
-            CTYPE_IN alpha_val;
-            ET_KERNEL_CHECK(
-                ctx,
-                utils::extract_scalar(alpha, &alpha_val),
-                InvalidArgument, );
+        ET_SWITCH_REALH_TYPES(out_type, ctx, "sub.out", CTYPE_OUT, [&]() {
+          CTYPE_IN alpha_val;
+          ET_KERNEL_CHECK(
+              ctx, utils::extract_scalar(alpha, &alpha_val), InvalidArgument, );
           SubInner<
               can_cast<CTYPE_IN, CTYPE_OUT>::value,
               CTYPE_A,
               CTYPE_B,
               CTYPE_IN,
               CTYPE_OUT>::run(a, b, alpha_val, out);
-          });
+        });
       });
     });
   }