2 kernels

Vladimir Paramuzov · Vladimir Paramuzov · commit 80536a515906 · 2024-06-14T13:22:21.000+04:00
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp
@@ -6,11 +6,11 @@
 #include "common_tools.h"
 #include "common_types.h"
 #include "jitter.h"
+#include "kernel_selector_common.h"
 #include "kernel_selector_params.h"
 #include "micro_utils.hpp"
 #include "tensor_type.h"
 
-
 #include <algorithm>
 #include <mutex>
 #include <string>
@@ -178,7 +178,7 @@ sdpa_config_t *choose_config_xehpc(int head_size, int seq, bool thin_q) {
 
 std::mutex SDPAKernelMicro::m;
 
-void SDPAKernelMicro::init_microkernels(const sdpa_params& params) const {
+void SDPAKernelMicro::init_microkernels(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const {
     std::lock_guard<std::mutex> l(m);
     const auto& Q = params.inputs[0];
     const auto& K = params.inputs[1];
@@ -187,14 +187,14 @@ void SDPAKernelMicro::init_microkernels(const sdpa_params& params) const {
     auto& out = params.outputs[0];
     const auto head_size = params.conf.head_size;
     const auto d_max = get_d_max(head_size);
-    const Tensor::Dim n_keys = K.X();
+    const Tensor::Dim n_keys = K.X().v; //get_seq_length(K, params.input1_order);
     const Tensor::Dim n_queries = get_seq_length(Q, params.input0_order);
     const Tensor::Dim n_values = V.X();
     const auto batch = out.Batch().v * out.Feature().v;
 
     /* Retrieve pre-tuned kernel configuration */
     sdpa_config_t *config = nullptr;
-    bool thin_q = !n_queries.is_dynamic && (n_queries.v <= 16);
+    bool thin_q = (!n_queries.is_dynamic && (n_queries.v <= 16)) || !is_prefill;
 
     switch (params.engineInfo.arch) {
         case gpu_arch::xe_hpg: {
@@ -223,7 +223,7 @@ void SDPAKernelMicro::init_microkernels(const sdpa_params& params) const {
     problem.Ts = problem.Tc;
 
     auto problem_kq = problem;
-    problem_kq.A.layout = micro::MatrixLayout::T; // TODO: support transpose with MatrixLayout::N layout
+    problem_kq.A.layout = micro::MatrixLayout::T;
     problem_kq.B.layout = micro::MatrixLayout::Pr;
     problem_kq.C.layout = micro::MatrixLayout::T;
     problem_kq.A.setAlignment(micro::alignment_for_ld(head_size * problem.Ta));
@@ -252,7 +252,7 @@ void SDPAKernelMicro::init_microkernels(const sdpa_params& params) const {
     opts_kq.slmPtr = true;
 
     /* Ask microkernel provider for microkernel */
-    gemm_kq = selectGEMMMicrokernel(opts_kq, hw_info, sizes, problem_kq, reqs_kq);
+    gemm_kq = micro::select_gemm_microkernel(opts_kq, hw_info, sizes, problem_kq, reqs_kq);
 
     /* Update for second GEMM: V*S */
     auto problem_vs = problem;
@@ -334,7 +334,7 @@ bool SDPAKernelMicro::Validate(const Params& p) const {
     return true;
 }
 
-JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params) const {
+JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const {
     auto jit = MakeBaseParamsJitConstants(params);
     const auto& prim_params = dynamic_cast<const sdpa_params&>(params);
 
@@ -452,7 +452,7 @@ JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params) const {
     return jit;
 }
 
-CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params) const {
+CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const {
     CommonDispatchData dispatch_data;
 
     auto wg_tile_q = gemm_kq.getSetting("wg_tile_n");
@@ -468,28 +468,17 @@ CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params) const
     return dispatch_data;
 }
 
-KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
-    KernelData kd = KernelData::Default<sdpa_params>(params);
-    const auto& prim_params = dynamic_cast<const sdpa_params&>(params);
-
-    if (!Validate(params)) {
-        return {};
-    }
-
-    init_microkernels(prim_params);
-
-    auto dispatchData = SetDefault(prim_params);
-    auto entry_point = GetEntryPoint(kernelName, prim_params.layerID, params);
-    auto cldnn_jit = GetJitConstants(prim_params);
-    auto jit = CreateJit(kernelName, cldnn_jit, entry_point);
+clKernelData SDPAKernelMicro::get_kernel_data(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const {
+    auto name = kernelName + (is_prefill ? "_prefill" : "_generate");
+    init_microkernels(params, gemm_kq, gemm_vs, is_prefill);
+    auto dispatch_data = SetDefault(params, gemm_kq, gemm_vs);
+    auto entry_point = GetEntryPoint(name, params.layerID, params);
+    auto jit = CreateJit(name, GetJitConstants(params, gemm_kq, gemm_vs), entry_point);
+    clKernelData kernel;
 
-    auto& kernel = kd.kernels[0];
-
-    GetUpdateDispatchDataFunc(kd);
-
-    FillCLKernelData(kernel, dispatchData, params.engineInfo, kernelName, jit, entry_point,
-                     "", false, false, static_cast<int>(prim_params.inputs.size()),
-                     GetFusedPrimitiveInputsCount(params), 1, prim_params.is_shape_agnostic);
+    FillCLKernelData(kernel, dispatch_data, params.engineInfo, kernelName, jit, entry_point,
+                     "", false, false, static_cast<int>(params.inputs.size()),
+                     GetFusedPrimitiveInputsCount(params), 1, params.is_shape_agnostic);
 
     kernel.params.arguments.clear();
     if (params.is_shape_agnostic )
@@ -500,9 +489,9 @@ KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
     kernel.params.arguments.push_back({ArgumentDescriptor::Types::INPUT, 2}); // V
     kernel.params.arguments.push_back({ArgumentDescriptor::Types::OUTPUT, 0}); // A
 
-    if (prim_params.inputs.size() >= 4)
+    if (params.inputs.size() >= 4)
         kernel.params.arguments.push_back({ArgumentDescriptor::Types::INPUT, 3}); // mask
-    if (prim_params.inputs.size() >= 5)
+    if (params.inputs.size() >= 5)
         kernel.params.arguments.push_back({ArgumentDescriptor::Types::INPUT, 4}); // Scale
 
     kernel.params.arguments.push_back({ArgumentDescriptor::Types::SCALAR, 0}); // D
@@ -530,23 +519,44 @@ KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
     shim_options.useTileOps = true;
     shim_options.decorator = "kq";
 
-    kd.kernels[0].code.kernelString->jit += generateShim(gemm_kq, micro::HostLanguage::OpenCL_C, shim_options);
+    kernel.code.kernelString->jit += generateShim(gemm_kq, micro::HostLanguage::OpenCL_C, shim_options);
 
     shim_options.microkernelID++;
     shim_options.decorator = "vs";
-    kd.kernels[0].code.kernelString->jit += generateShim(gemm_vs, micro::HostLanguage::OpenCL_C, shim_options);
+    kernel.code.kernelString->jit += generateShim(gemm_vs, micro::HostLanguage::OpenCL_C, shim_options);
 
     if (gemm_kq.grfMin > 128 || gemm_vs.grfMin > 128)
-        kd.kernels[0].code.kernelString->options += " -cl-intel-256-GRF-per-thread";
+        kernel.code.kernelString->options += " -cl-intel-256-GRF-per-thread";
 
     std::string extra_options = " -Dcl_intel_dot_accumulate";
     extra_options += " -Dcl_intel_global_float_atomic";
     extra_options += " -Dcl_intel_subgroup_matrix_multiply_accumulate";
     extra_options += " -Dcl_intel_subgroup_split_matrix_multiply_accumulate";
-    kd.kernels[0].code.kernelString->options += extra_options;
+    kernel.code.kernelString->options += extra_options;
 
-    kd.kernels[0].code.kernelString->batch_compilation = false;
-    kd.kernels[0].code.kernelString->has_microkernels = true;
+    kernel.code.kernelString->batch_compilation = false;
+    kernel.code.kernelString->has_microkernels = true;
+
+    return kernel;
+}
+
+KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
+    const size_t num_kernels = 2;
+    KernelData kd = KernelData::Default<sdpa_params>(params, num_kernels);
+    const auto& prim_params = dynamic_cast<const sdpa_params&>(params);
+
+    if (!Validate(params)) {
+        return {};
+    }
+
+    gemms_kq.resize(2);
+    gemms_vs.resize(2);
+
+    for (size_t i = 0; i < num_kernels; i++) {
+        kd.kernels[i] = get_kernel_data(prim_params, gemms_kq[i], gemms_vs[i], i == prefill_id);
+    }
+
+    GetUpdateDispatchDataFunc(kd);
 
     std::cerr << prim_params.layerID << " use micro_sdpa!\n";
     return { kd };
@@ -555,20 +565,14 @@ KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
 void SDPAKernelMicro::GetUpdateDispatchDataFunc(KernelData& kd) const {
     kd.update_dispatch_data_func = [this](const Params& params, KernelData& kernel_data) {
         const auto& prim_params = static_cast<const sdpa_params&>(params);
-        auto dispatchData = SetDefault(prim_params);
-        OPENVINO_ASSERT(kernel_data.kernels.size() == 1, "[GPU] Invalid kernels size for update dispatch data func");
-        kernel_data.kernels[0].params.workGroups.global = dispatchData.gws;
-        kernel_data.kernels[0].params.workGroups.local = dispatchData.lws;
-        kernel_data.kernels[0].skip_execution = KernelData::SkipKernelExecution(prim_params);
-
-        auto head_size = prim_params.conf.head_size;
-
         const auto& Q = prim_params.inputs[0];
         const auto& K = prim_params.inputs[1];
 
         const auto n_queries = get_seq_length(Q, prim_params.input0_order);
         const auto n_keys = get_seq_length(K, prim_params.input1_order);
 
+        auto head_size = prim_params.conf.head_size;
+
         ScalarDescriptor s_d;
         s_d.t = ScalarDescriptor::Types::INT32;
         s_d.v.s32 = static_cast<uint32_t>(head_size);
@@ -581,11 +585,24 @@ void SDPAKernelMicro::GetUpdateDispatchDataFunc(KernelData& kd) const {
         s_q.t = ScalarDescriptor::Types::INT32;
         s_q.v.s32 = static_cast<uint32_t>(n_queries.v);
 
+        const bool is_prefill = true;//n_queries.v > 1;
+
+        OPENVINO_ASSERT(kernel_data.kernels.size() == 2, "[GPU] Invalid kernels size for update dispatch data func");
+
+        size_t target_kernel = is_prefill ? prefill_id : generate_id;
+
+        kernel_data.kernels[prefill_id].skip_execution = true;
+        kernel_data.kernels[generate_id].skip_execution = true;
+
+        auto dispatchData = SetDefault(prim_params, gemms_kq[target_kernel], gemms_vs[target_kernel]);
+        kernel_data.kernels[target_kernel].params.workGroups.global = dispatchData.gws;
+        kernel_data.kernels[target_kernel].params.workGroups.local = dispatchData.lws;
+        kernel_data.kernels[target_kernel].skip_execution = KernelData::SkipKernelExecution(prim_params);
 
-        kernel_data.kernels[0].params.scalars.clear();
-        kernel_data.kernels[0].params.scalars.push_back(s_d);
-        kernel_data.kernels[0].params.scalars.push_back(s_k);
-        kernel_data.kernels[0].params.scalars.push_back(s_q);
+        kernel_data.kernels[target_kernel].params.scalars.clear();
+        kernel_data.kernels[target_kernel].params.scalars.push_back(s_d);
+        kernel_data.kernels[target_kernel].params.scalars.push_back(s_k);
+        kernel_data.kernels[target_kernel].params.scalars.push_back(s_q);
     };
 }
 
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.h b/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.h
@@ -21,16 +21,21 @@ class SDPAKernelMicro : public SDPAKernelBase {
 protected:
     bool Validate(const Params& p) const override;
     void GetUpdateDispatchDataFunc(KernelData& kd) const override;
-    CommonDispatchData SetDefault(const sdpa_params& params) const;
-    JitConstants GetJitConstants(const sdpa_params& params) const;
+    CommonDispatchData SetDefault(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const;
+    JitConstants GetJitConstants(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const;
     std::vector<FusedOpType> GetSupportedFusedOps() const override {
         return {};
     }
 
-    void init_microkernels(const sdpa_params& params) const;
+    void init_microkernels(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const;
+    clKernelData get_kernel_data(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const;
 
 private:
-    mutable micro::Package gemm_kq, gemm_vs;
+    mutable std::vector<micro::Package> gemms_kq;
+    mutable std::vector<micro::Package> gemms_vs;
+
+    static constexpr size_t prefill_id = 0;
+    static constexpr size_t generate_id = 1;
     static std::mutex m;
 };
 }  // namespace kernel_selector