PaddlePaddle
diff --git a/‎paddle/phi/kernels/fusion/xpu/add_act_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions b/‎paddle/phi/kernels/fusion/xpu/add_act_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/add_layernorm_xpu_kernel.cc
Lines changed: 3 additions & 3 deletions b/‎paddle/phi/kernels/fusion/xpu/add_layernorm_xpu_kernel.cc
Lines changed: 3 additions & 3 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/addcmul_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions b/‎paddle/phi/kernels/fusion/xpu/addcmul_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/conv1d_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions b/‎paddle/phi/kernels/fusion/xpu/conv1d_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/conv2d_xpu_kernel.cc
Lines changed: 8 additions & 8 deletions b/‎paddle/phi/kernels/fusion/xpu/conv2d_xpu_kernel.cc
Lines changed: 8 additions & 8 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/conv_transpose_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions b/‎paddle/phi/kernels/fusion/xpu/conv_transpose_xpu_kernel.cc
Lines changed: 4 additions & 4 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/cross_attention_xpu_kernel.cc
Lines changed: 10 additions & 10 deletions b/‎paddle/phi/kernels/fusion/xpu/cross_attention_xpu_kernel.cc
Lines changed: 10 additions & 10 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/embedding_with_eltwise_add_xpu_kernel.cc
Lines changed: 8 additions & 8 deletions b/‎paddle/phi/kernels/fusion/xpu/embedding_with_eltwise_add_xpu_kernel.cc
Lines changed: 8 additions & 8 deletions
@@ -19,7 +19,7 @@ namespace phi {
 namespace fusion {
 
 template <typename T, typename Context>
-void AddActXPUKernel(const Context& ctx,
+void AddActXPUKernel(const Context& dev_ctx,
                      const DenseTensor& x,
                      const paddle::optional<DenseTensor>& x_max,
                      const DenseTensor& y,
@@ -35,22 +35,22 @@ void AddActXPUKernel(const Context& ctx,
   auto* y_data = reinterpret_cast<const XPUType*>(y.data<T>());
   const float* y_max_data =
       y_max.get_ptr() == nullptr ? nullptr : y_max.get_ptr()->data<float>();
-  auto* out_data = reinterpret_cast<XPUType*>(ctx.template Alloc<T>(out));
+  auto* out_data = reinterpret_cast<XPUType*>(dev_ctx.template Alloc<T>(out));
 
   std::vector<int64_t> x_shape = common::vectorize(x.dims());
   std::vector<int64_t> y_shape = common::vectorize(y.dims());
   xpu::Activation_t act(static_cast<xpu::Activation_t::act_enum>(act_type));
   int r =
       xpu::add_activation_fusion<XPUType, XPUType, XPUType>(  // TX/TY/TZ/TID
-          /* baidu::xpu::api::Context* ctx */ ctx.x_context(),
+          /* baidu::xpu::api::Context* ctx */ dev_ctx.x_context(),
           /* const TX* x */ x_data,
           /* const TY* y */ y_data,
           /* TZ* z */ out_data,
           /* const std::vector<int64_t>& x_shape */ x_shape,
           /* const std::vector<int64_t>& y_shape */ y_shape,
           /* const float* max_x */ x_max_data,
           /* const float* max_y */ y_max_data,
-          /* float* max_z */ ctx.template Alloc<float>(out_max),
+          /* float* max_z */ dev_ctx.template Alloc<float>(out_max),
           /* const baidu::xpu::api::Activation_t& act */ act);
   PADDLE_ENFORCE_XDNN_SUCCESS(r, "add_act_xpu");
 }
 
@@ -66,7 +66,7 @@ static phi::DDim BroadCastInferShape(const DDim x_dims,
 }
 
 template <typename T, typename Context>
-void AddLayernormXPUKernel(const Context& ctx,
+void AddLayernormXPUKernel(const Context& dev_ctx,
                            const DenseTensor& x,
                            const DenseTensor& y,
                            const DenseTensor& scale,
@@ -88,10 +88,10 @@ void AddLayernormXPUKernel(const Context& ctx,
   int64_t m = layer_norm_x_mat_dims[0];
   int64_t n = layer_norm_x_mat_dims[1];
 
-  auto* out_data = reinterpret_cast<XPUType*>(ctx.template Alloc<T>(out));
+  auto* out_data = reinterpret_cast<XPUType*>(dev_ctx.template Alloc<T>(out));
 
   int r = xpu::add_layer_norm_fusion<XPUType>(  // T
-      /* baidu::xpu::api::Context* ctx */ ctx.x_context(),
+      /* baidu::xpu::api::Context* ctx */ dev_ctx.x_context(),
       /* const T* x */ x_data,
       /* const T* y */ y_data,
       /* T* z */ out_data,
 
@@ -19,7 +19,7 @@ namespace phi {
 namespace fusion {
 
 template <typename T, typename Context>
-void AddCMulXPUKernel(const Context& ctx,
+void AddCMulXPUKernel(const Context& dev_ctx,
                       const DenseTensor& x,
                       const DenseTensor& y,
                       const DenseTensor& w,
@@ -29,18 +29,18 @@ void AddCMulXPUKernel(const Context& ctx,
   const auto* y_data = y.data<T>();
   const auto* w_data = w.data<T>();
 
-  auto* out_data = ctx.template Alloc<T>(out);
+  auto* out_data = dev_ctx.template Alloc<T>(out);
 
 #ifdef PADDLE_WITH_XPU_PLUGIN
-  int r = xpu::plugin::fast_addcmul(ctx.x_context(),
+  int r = xpu::plugin::fast_addcmul(dev_ctx.x_context(),
                                     reinterpret_cast<const XPUType*>(w_data),
                                     reinterpret_cast<const XPUType*>(x_data),
                                     reinterpret_cast<const XPUType*>(y_data),
                                     reinterpret_cast<XPUType*>(out_data),
                                     x.numel());
   PADDLE_ENFORCE_XDNN_SUCCESS(r, "fast_addcmul");
 #else
-  int r = xpu::addcmul(ctx.x_context(),
+  int r = xpu::addcmul(dev_ctx.x_context(),
                        reinterpret_cast<const XPUType*>(w_data),
                        reinterpret_cast<const XPUType*>(x_data),
                        reinterpret_cast<const XPUType*>(y_data),
 
@@ -23,7 +23,7 @@ namespace phi {
 namespace fusion {
 
 template <typename T, typename Context>
-void Conv1dXPUKernel(const Context& ctx,
+void Conv1dXPUKernel(const Context& dev_ctx,
                      const DenseTensor& x,
                      const paddle::optional<DenseTensor>& x_max,
                      const DenseTensor& filter,
@@ -65,8 +65,8 @@ void Conv1dXPUKernel(const Context& ctx,
                                      : branch_max.get_ptr()->data<float>();
   const float* bias_data =
       bias.get_ptr() == nullptr ? nullptr : bias.get_ptr()->data<float>();
-  auto* out_data = reinterpret_cast<XPUType*>(ctx.template Alloc<T>(out));
-  auto* out_max_data = ctx.template Alloc<float>(out_max);
+  auto* out_data = reinterpret_cast<XPUType*>(dev_ctx.template Alloc<T>(out));
+  auto* out_max_data = dev_ctx.template Alloc<float>(out_max);
 
   xpu::Activation_t act(static_cast<xpu::Activation_t::act_enum>(act_type));
   if (act_type == xpu::Activation_t::LEAKY_RELU) {
@@ -76,7 +76,7 @@ void Conv1dXPUKernel(const Context& ctx,
   }
   int r =
       xpu::conv1d_fusion<XPUType, int16_t, XPUType, int16_t>(  // TX/TW/TY/TGEMM
-          /* baidu::xpu::api::Context* ctx */ ctx.x_context(),
+          /* baidu::xpu::api::Context* ctx */ dev_ctx.x_context(),
           /* const TX* x */ input_data,
           /* const TW* weight */ filter_data,
           /* TY* y */ out_data,
 
@@ -27,7 +27,7 @@ template <typename T_X,
           typename T_OUT,
           typename T_GEMM,
           typename Context>
-void Conv2dXPUKernelImpl(const Context& ctx,
+void Conv2dXPUKernelImpl(const Context& dev_ctx,
                          const DenseTensor& x,
                          const paddle::optional<DenseTensor>& x_max,
                          const DenseTensor& filter,
@@ -83,7 +83,7 @@ void Conv2dXPUKernelImpl(const Context& ctx,
                                      ? nullptr
                                      : branch_max.get_ptr()->data<float>();
   auto* branch_tensor = branch.get_ptr();
-  xpu::ctx_guard RAII_GUARD(ctx.x_context());
+  xpu::ctx_guard RAII_GUARD(dev_ctx.x_context());
   if (branch_tensor != nullptr) {
     if (branch_tensor->dtype() == out->dtype()) {
       branch_data =
@@ -92,7 +92,7 @@ void Conv2dXPUKernelImpl(const Context& ctx,
       auto branch_data_temp =
           RAII_GUARD.alloc_l3_or_gm<XPUTypeOut>(branch_tensor->numel());
       int r = xpu::cast<XPUTypeX, XPUTypeOut>(
-          ctx.x_context(),
+          dev_ctx.x_context(),
           reinterpret_cast<const XPUTypeX*>(branch_tensor->data<T_X>()),
           branch_data_temp,
           branch_tensor->numel());
@@ -104,8 +104,8 @@ void Conv2dXPUKernelImpl(const Context& ctx,
   const float* bias_data =
       bias.get_ptr() == nullptr ? nullptr : bias.get_ptr()->data<float>();
   auto* out_data =
-      reinterpret_cast<XPUTypeOut*>(ctx.template Alloc<T_OUT>(out));
-  auto* out_max_data = ctx.template Alloc<float>(out_max);
+      reinterpret_cast<XPUTypeOut*>(dev_ctx.template Alloc<T_OUT>(out));
+  auto* out_max_data = dev_ctx.template Alloc<float>(out_max);
   out_max_data = out_max_in.get_ptr() != nullptr
                      ? const_cast<float*>(out_max_in.get_ptr()->data<float>())
                      : out_max_data;
@@ -118,7 +118,7 @@ void Conv2dXPUKernelImpl(const Context& ctx,
 
   int r = xpu::
       conv2d_fusion<XPUTypeX, XPUTypeW, XPUTypeOut, T_GEMM>(  // TX/TW/TY/TGEMM
-          /* baidu::xpu::api::Context* ctx */ ctx.x_context(),
+          /* baidu::xpu::api::Context* ctx */ dev_ctx.x_context(),
           /* const TX* input */ input_data,
           /* const TW* filter */ filter_data,
           /* TY* output */ out_data,
@@ -147,7 +147,7 @@ void Conv2dXPUKernelImpl(const Context& ctx,
 
 #define CONV2D_XPU_KERNEL_IMPL(x_dtype_, w_dtype_, out_dtype_, gemm_dtype_)  \
   Conv2dXPUKernelImpl<x_dtype_, w_dtype_, out_dtype_, gemm_dtype_, Context>( \
-      ctx,                                                                   \
+      dev_ctx,                                                               \
       x,                                                                     \
       x_max,                                                                 \
       filter,                                                                \
@@ -168,7 +168,7 @@ void Conv2dXPUKernelImpl(const Context& ctx,
       out_max);
 
 template <typename T, typename Context>
-void Conv2dXPUKernel(const Context& ctx,
+void Conv2dXPUKernel(const Context& dev_ctx,
                      const DenseTensor& x,
                      const paddle::optional<DenseTensor>& x_max,
                      const DenseTensor& filter,
 
@@ -20,7 +20,7 @@
 namespace phi {
 namespace fusion {
 template <typename T, typename Context>
-void Conv2dTransposeXPUKernel(const Context& ctx,
+void Conv2dTransposeXPUKernel(const Context& dev_ctx,
                               const DenseTensor& x,
                               const paddle::optional<DenseTensor>& x_max,
                               const DenseTensor& filter,
@@ -41,8 +41,8 @@ void Conv2dTransposeXPUKernel(const Context& ctx,
                               DenseTensor* out_max) {
   using XPUType = typename XPUTypeTrait<T>::Type;
 
-  ctx.template Alloc<T>(out);
-  ctx.template Alloc<float>(out_max);
+  dev_ctx.template Alloc<T>(out);
+  dev_ctx.template Alloc<float>(out_max);
   bool is_nchw;
   is_nchw = (data_format == "NHWC") ? false : true;
 
@@ -73,7 +73,7 @@ void Conv2dTransposeXPUKernel(const Context& ctx,
   auto filter_max_data = filter_max.data<float>();
 
   int r = xpu::conv2d_transpose_fusion_v2<XPUType, int16_t, XPUType, int16_t>(
-      ctx.x_context(),
+      dev_ctx.x_context(),
       reinterpret_cast<const XPUType*>(x.data<T>()),
       filter.data<int16_t>(),
       reinterpret_cast<XPUType*>(out->data<T>()),
 
@@ -27,7 +27,7 @@ template <typename T_X,
           typename T_GEMM,
           typename Context>
 void CrossAttentionXPUKernelImpl(
-    const Context& ctx,
+    const Context& dev_ctx,
     const DenseTensor& input_q,
     const DenseTensor& input_kv,
     const std::vector<const DenseTensor*>& fc_weight,
@@ -47,7 +47,7 @@ void CrossAttentionXPUKernelImpl(
   auto* input_q_data = reinterpret_cast<const XPUTypeX*>(input_q.data<T_X>());
   auto* input_kv_data = reinterpret_cast<const XPUTypeX*>(input_kv.data<T_X>());
 
-  xpu::ctx_guard RAII_GUARD(ctx.x_context());
+  xpu::ctx_guard RAII_GUARD(dev_ctx.x_context());
 
   XPUTypeFP16* q_data = RAII_GUARD.alloc_l3_or_gm<XPUTypeFP16>(input_q.numel());
   XPUTypeFP16* k_data =
@@ -85,7 +85,7 @@ void CrossAttentionXPUKernelImpl(
   for (int i = 0; i < 3; ++i) {
     int r = xpu::
         fc_fusion<XPUTypeX, XPUTypeW, XPUTypeFP16, T_GEMM>(  // TX/TW/TY/TGEMM
-            ctx.x_context(),                                 // ctx
+            dev_ctx.x_context(),                             // ctx
             loop_x[i],                                       // x
             fc_weight_data_int16_t[i],                       // w
             loop_y[i],                                       // y
@@ -111,8 +111,8 @@ void CrossAttentionXPUKernelImpl(
   int mask_dim_size = mask_dim.size();
   const float* mask_data = mask.data<float>();
   auto* qkv_data =
-      reinterpret_cast<XPUTypeOut*>(ctx.template Alloc<T_QKV>(qkv));
-  auto* qkv_max_data = ctx.template Alloc<float>(qkv_max);
+      reinterpret_cast<XPUTypeOut*>(dev_ctx.template Alloc<T_QKV>(qkv));
+  auto* qkv_max_data = dev_ctx.template Alloc<float>(qkv_max);
   std::vector<int64_t> z_shape(4, 1);
   if (mask_dim_size < 4) {
     int index = 4 - mask_dim_size;
@@ -145,7 +145,7 @@ void CrossAttentionXPUKernelImpl(
                              XPUTypeFP16,
                              XPUTypeFP16,
                              XPUTypeFP16,
-                             XPUTypeGEMM>(ctx.x_context(),
+                             XPUTypeGEMM>(dev_ctx.x_context(),
                                           q_data,
                                           k_data,
                                           v_data,
@@ -160,13 +160,13 @@ void CrossAttentionXPUKernelImpl(
 
   if (input_q.dtype() == DataType::FLOAT32) {
     int r_cast_out = xpu::cast<XPUTypeFP16, XPUTypeOut>(
-        ctx.x_context(), qkv_temp_data, qkv_data, qkv->numel());
+        dev_ctx.x_context(), qkv_temp_data, qkv_data, qkv->numel());
     PADDLE_ENFORCE_XDNN_SUCCESS(
         r_cast_out, "cross_attention_xpu(cast out from fp16 to fp32)");
   }
   if (input_q.dtype() == DataType::FLOAT16) {
     int r_copy =
-        xpu::copy(ctx.x_context(), qkv_temp_data, qkv_data, qkv->numel());
+        xpu::copy(dev_ctx.x_context(), qkv_temp_data, qkv_data, qkv->numel());
     PADDLE_ENFORCE_XDNN_SUCCESS(r_copy, "cross_attention_xpu(copy out)");
   }
 }
@@ -177,7 +177,7 @@ void CrossAttentionXPUKernelImpl(
                               w_dtype_,               \
                               qkv_dtype_,             \
                               gemm_dtype_,            \
-                              Context>(ctx,           \
+                              Context>(dev_ctx,       \
                                        input_q,       \
                                        input_kv,      \
                                        fc_weight,     \
@@ -193,7 +193,7 @@ void CrossAttentionXPUKernelImpl(
 
 template <typename T, typename Context>
 void CrossAttentionXPUKernel(
-    const Context& ctx,
+    const Context& dev_ctx,
     const DenseTensor& input_q,
     const DenseTensor& input_kv,
     const std::vector<const DenseTensor*>& fc_weight,
 
@@ -59,7 +59,7 @@ void FillSeqLod<float>(int batch_size,
 }
 
 template <typename TT, typename TID, typename Context>
-void MultiEmbeddingKernel(const Context& ctx,
+void MultiEmbeddingKernel(const Context& dev_ctx,
                           const std::vector<const DenseTensor*>& ids,
                           const std::vector<const DenseTensor*>& tables,
                           const paddle::optional<DenseTensor>& mask,
@@ -110,9 +110,9 @@ void MultiEmbeddingKernel(const Context& ctx,
     int batch_size = mask_tensor->dims()[0];
     auto pad_seq_len = mask_tensor->dims()[1];
     max_seq_len->Resize({1});
-    ctx.template HostAlloc<int>(max_seq_len)[0] = pad_seq_len;
+    dev_ctx.template HostAlloc<int>(max_seq_len)[0] = pad_seq_len;
     seq_lod->Resize({batch_size + 1});
-    int* seq_lod_data = ctx.template HostAlloc<int>(seq_lod);
+    int* seq_lod_data = dev_ctx.template HostAlloc<int>(seq_lod);
 
     std::vector<int> cpu_seq_lod{0};
     switch (mask_tensor->dtype()) {
@@ -160,9 +160,9 @@ void MultiEmbeddingKernel(const Context& ctx,
   }
 
   int r = xpu::multi_embedding_fusion<XPUType, XPUType, TID>(
-      ctx.x_context(),
+      dev_ctx.x_context(),
       arg_tables,
-      reinterpret_cast<XPUType*>(ctx.template Alloc<TT>(out)),
+      reinterpret_cast<XPUType*>(dev_ctx.template Alloc<TT>(out)),
       arg_ids,
       table_lens,
       emb_dim,
@@ -174,7 +174,7 @@ void MultiEmbeddingKernel(const Context& ctx,
 
 template <typename T, typename Context>
 void EmbeddingWithEltwiseAddXpuKernel(
-    const Context& ctx,
+    const Context& dev_ctx,
     const std::vector<const DenseTensor*>& ids,
     const std::vector<const DenseTensor*>& tables,
     const paddle::optional<DenseTensor>& mask,
@@ -185,11 +185,11 @@ void EmbeddingWithEltwiseAddXpuKernel(
   switch (ids[0]->dtype()) {
     case DataType::INT32:
       MultiEmbeddingKernel<T, int, Context>(
-          ctx, ids, tables, mask, padding_idx, out, seq_lod, max_seq_len);
+          dev_ctx, ids, tables, mask, padding_idx, out, seq_lod, max_seq_len);
       break;
     case DataType::INT64:
       MultiEmbeddingKernel<T, int64_t, Context>(
-          ctx, ids, tables, mask, padding_idx, out, seq_lod, max_seq_len);
+          dev_ctx, ids, tables, mask, padding_idx, out, seq_lod, max_seq_len);
       break;
     default:
       PADDLE_THROW(common::errors::Unimplemented(