quantized_relu_per_tensor_out

zonglinpeng · facebook-github-bot · commit 6a0c0882ec9c · 2025-02-03T09:43:08.000-08:00
Summary: fix quantized_relu_per_tensor

Differential Revision: D69015308
diff --git a/backends/cadence/hifi/operators/op_quantized_relu_out.cpp b/backends/cadence/hifi/operators/op_quantized_relu_out.cpp
@@ -45,6 +45,60 @@ void quantized_relu_(
   }
 }
 
+void quantized_relu_per_tensor_out(
+    KernelRuntimeContext& ctx,
+    const Tensor& input,
+    const int64_t in_zero_point,
+    const int64_t out_zero_point,
+    const int64_t out_multiplier,
+    const int64_t out_shift,
+    Tensor& output) {
+  const uint8_t _in_zero_point = static_cast<uint8_t>(in_zero_point);
+  const uint8_t _out_zero_point = static_cast<uint8_t>(out_zero_point);
+  const int32_t _out_multiplier = static_cast<int32_t>(out_multiplier);
+  const int32_t _out_shift = static_cast<int32_t>(out_shift);
+  if (input.scalar_type() == executorch::aten::ScalarType::Byte) {
+    const uint8_t* p_in = input.const_data_ptr<uint8_t>();
+    uint8_t* p_out = output.mutable_data_ptr<uint8_t>();
+
+    WORD32 ret_val = xa_nn_vec_relu_asym8u_asym8u(
+        p_out,
+        p_in,
+        _in_zero_point,
+        _out_multiplier,
+        _out_shift,
+        _out_zero_point,
+        _out_zero_point,
+        255,
+        input.numel());
+
+    ET_CHECK_MSG(ret_val == 0, "An internal error occured");
+
+  } else if (input.scalar_type() == executorch::aten::ScalarType::Char) {
+    const int8_t* p_in = input.const_data_ptr<int8_t>();
+    int8_t* p_out = output.mutable_data_ptr<int8_t>();
+
+    WORD32 ret_val = xa_nn_vec_relu_asym8s_asym8s(
+        p_out,
+        p_in,
+        _in_zero_point,
+        _out_multiplier,
+        _out_shift,
+        _out_zero_point,
+        _out_zero_point,
+        127,
+        input.numel());
+
+    ET_CHECK_MSG(ret_val == 0, "An internal error occured");
+
+  } else {
+    ET_CHECK_MSG(
+        false,
+        "Unhandled input dtype %hhd",
+        static_cast<int8_t>(input.scalar_type()));
+  }
+}
+
 void quantized_relu_per_tensor_out(
     KernelRuntimeContext& ctx,
     const Tensor& input,