Fixes

Vladimir Paramuzov · Vladimir Paramuzov · commit 5cc640c01946 · 2024-06-14T13:22:21.000+04:00
diff --git a/src/plugins/intel_gpu/include/intel_gpu/runtime/debug_configuration.hpp b/src/plugins/intel_gpu/include/intel_gpu/runtime/debug_configuration.hpp
@@ -48,7 +48,7 @@ enum class LogLevel : int8_t {
 #else
 #define SEPARATE '/'
 #endif
-#define __FILENAME__ (strrchr(__FILE__, SEPARATE) ? strrchr(__FILE__, SEPARATE) + 1 : __FILE__)
+#define GPU_FILENAME (strrchr(__FILE__, SEPARATE) ? strrchr(__FILE__, SEPARATE) + 1 : __FILE__)
 #define GPU_DEBUG_IF(cond) if (cond)
 #define GPU_DEBUG_CODE(...) __VA_ARGS__
 #define GPU_DEBUG_DEFINE_MEM_LOGGER(stage) \
@@ -62,9 +62,9 @@ enum class LogLevel : int8_t {
 #define GPU_DEBUG_LOG_RAW_INT(min_verbose_level) if (cldnn::debug_configuration::get_instance()->verbose >= min_verbose_level) \
     ((cldnn::debug_configuration::get_instance()->verbose_color == 0) ? GPU_DEBUG_LOG_PREFIX : GPU_DEBUG_LOG_COLOR_PREFIX)
 #define GPU_DEBUG_LOG_RAW(min_verbose_level) GPU_DEBUG_LOG_RAW_INT(static_cast<std::underlying_type<ov::intel_gpu::LogLevel>::type>(min_verbose_level))
-#define GPU_DEBUG_LOG_PREFIX    std::cout << cldnn::debug_configuration::prefix << __FILENAME__ << ":" <<__LINE__ << ":" << __func__ << ": "
+#define GPU_DEBUG_LOG_PREFIX    std::cout << cldnn::debug_configuration::prefix << GPU_FILENAME << ":" <<__LINE__ << ":" << __func__ << ": "
 #define GPU_DEBUG_LOG_COLOR_PREFIX  std::cout << DARK_GRAY << cldnn::debug_configuration::prefix << \
-    BLUE << __FILENAME__ << ":" << PURPLE <<  __LINE__ << ":" << CYAN << __func__ << ": " << RESET
+    BLUE << GPU_FILENAME << ":" << PURPLE <<  __LINE__ << ":" << CYAN << __func__ << ": " << RESET
 #define DARK_GRAY   "\033[1;30m"
 #define BLUE        "\033[1;34m"
 #define PURPLE      "\033[1;35m"
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/kernel_selector_helper.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/kernel_selector_helper.cpp
@@ -9,6 +9,10 @@
 #include "kernel_selector_params.h"
 #include "to_string_utils.h"
 #include "program_node.h"
+#include "intel_gpu/graph/serialization/layout_serializer.hpp"
+#include "intel_gpu/graph/serialization/polymorphic_serializer.hpp"
+#include "intel_gpu/graph/serialization/string_serializer.hpp"
+#include "intel_gpu/graph/serialization/vector_serializer.hpp"
 
 #include "intel_gpu/primitives/concatenation.hpp"
 #include "intel_gpu/primitives/convolution.hpp"
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernel_selector_common.h b/src/plugins/intel_gpu/src/kernel_selector/kernel_selector_common.h
@@ -19,6 +19,10 @@
 #define EXE_MODE_AGE_BASED "-cl-no-subgroup-ifp"
 #define EXE_MODE_NO_PRERA_SCH "-cl-intel-no-prera-scheduling"
 
+namespace micro {
+struct MicroKernelPackage;
+}  // namspace
+
 namespace kernel_selector {
 
 #ifndef UNUSED
@@ -64,6 +68,7 @@ struct KernelCode {
 struct clKernelData {
     KernelCode code;
     KernelParams params;
+    std::vector<std::shared_ptr<micro::MicroKernelPackage>> micro_kernels;
     bool skip_execution = false;
 };
 
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp
@@ -334,7 +334,7 @@ bool SDPAKernelMicro::Validate(const Params& p) const {
     return true;
 }
 
-JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const {
+JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params, const micro::Package& gemm_kq, const micro::Package& gemm_vs) const {
     auto jit = MakeBaseParamsJitConstants(params);
     const auto& prim_params = dynamic_cast<const sdpa_params&>(params);
 
@@ -452,7 +452,7 @@ JitConstants SDPAKernelMicro::GetJitConstants(const sdpa_params& params, micro::
     return jit;
 }
 
-CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const {
+CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params, const micro::Package& gemm_kq, const micro::Package& gemm_vs) const {
     CommonDispatchData dispatch_data;
 
     auto wg_tile_q = gemm_kq.getSetting("wg_tile_n");
@@ -468,12 +468,14 @@ CommonDispatchData SDPAKernelMicro::SetDefault(const sdpa_params& params, micro:
     return dispatch_data;
 }
 
-clKernelData SDPAKernelMicro::get_kernel_data(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const {
+clKernelData SDPAKernelMicro::get_kernel_data(const sdpa_params& params, bool is_prefill) const {
     auto name = kernelName + (is_prefill ? "_prefill" : "_generate");
-    init_microkernels(params, gemm_kq, gemm_vs, is_prefill);
-    auto dispatch_data = SetDefault(params, gemm_kq, gemm_vs);
+
+    std::vector<micro::Package> gemms(2); // KQ and VS
+    init_microkernels(params, gemms[kq_id], gemms[vs_id], is_prefill);
+    auto dispatch_data = SetDefault(params, gemms[kq_id], gemms[vs_id]);
     auto entry_point = GetEntryPoint(name, params.layerID, params);
-    auto jit = CreateJit(name, GetJitConstants(params, gemm_kq, gemm_vs), entry_point);
+    auto jit = CreateJit(name, GetJitConstants(params, gemms[kq_id], gemms[vs_id]), entry_point);
     clKernelData kernel;
 
     FillCLKernelData(kernel, dispatch_data, params.engineInfo, kernelName, jit, entry_point,
@@ -519,13 +521,13 @@ clKernelData SDPAKernelMicro::get_kernel_data(const sdpa_params& params, micro::
     shim_options.useTileOps = true;
     shim_options.decorator = "kq";
 
-    kernel.code.kernelString->jit += generateShim(gemm_kq, micro::HostLanguage::OpenCL_C, shim_options);
+    kernel.code.kernelString->jit += generateShim(gemms[kq_id], micro::HostLanguage::OpenCL_C, shim_options);
 
     shim_options.microkernelID++;
     shim_options.decorator = "vs";
-    kernel.code.kernelString->jit += generateShim(gemm_vs, micro::HostLanguage::OpenCL_C, shim_options);
+    kernel.code.kernelString->jit += generateShim(gemms[vs_id], micro::HostLanguage::OpenCL_C, shim_options);
 
-    if (gemm_kq.grfMin > 128 || gemm_vs.grfMin > 128)
+    if (gemms[kq_id].grfMin > 128 || gemms[vs_id].grfMin > 128)
         kernel.code.kernelString->options += " -cl-intel-256-GRF-per-thread";
 
     std::string extra_options = " -Dcl_intel_dot_accumulate";
@@ -537,6 +539,10 @@ clKernelData SDPAKernelMicro::get_kernel_data(const sdpa_params& params, micro::
     kernel.code.kernelString->batch_compilation = false;
     kernel.code.kernelString->has_microkernels = true;
 
+    for (auto& p : gemms) {
+        kernel.micro_kernels.push_back(std::make_shared<micro::MicroKernelPackage>(p));
+    }
+
     return kernel;
 }
 
@@ -549,11 +555,8 @@ KernelsData SDPAKernelMicro::GetKernelsData(const Params& params) const {
         return {};
     }
 
-    gemms_kq.resize(2);
-    gemms_vs.resize(2);
-
     for (size_t i = 0; i < num_kernels; i++) {
-        kd.kernels[i] = get_kernel_data(prim_params, gemms_kq[i], gemms_vs[i], i == prefill_id);
+        kd.kernels[i] = get_kernel_data(prim_params, i == prefill_id);
     }
 
     GetUpdateDispatchDataFunc(kd);
@@ -594,7 +597,8 @@ void SDPAKernelMicro::GetUpdateDispatchDataFunc(KernelData& kd) const {
         kernel_data.kernels[prefill_id].skip_execution = true;
         kernel_data.kernels[generate_id].skip_execution = true;
 
-        auto dispatchData = SetDefault(prim_params, gemms_kq[target_kernel], gemms_vs[target_kernel]);
+        const auto& gemms = kernel_data.kernels[target_kernel].micro_kernels;
+        auto dispatchData = SetDefault(prim_params, gemms[kq_id]->p, gemms[vs_id]->p);
         kernel_data.kernels[target_kernel].params.workGroups.global = dispatchData.gws;
         kernel_data.kernels[target_kernel].params.workGroups.local = dispatchData.lws;
         kernel_data.kernels[target_kernel].skip_execution = KernelData::SkipKernelExecution(prim_params);
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.h b/src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.h
@@ -21,21 +21,22 @@ class SDPAKernelMicro : public SDPAKernelBase {
 protected:
     bool Validate(const Params& p) const override;
     void GetUpdateDispatchDataFunc(KernelData& kd) const override;
-    CommonDispatchData SetDefault(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const;
-    JitConstants GetJitConstants(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs) const;
+    CommonDispatchData SetDefault(const sdpa_params& params, const micro::Package& gemm_kq, const micro::Package& gemm_vs) const;
+    JitConstants GetJitConstants(const sdpa_params& params, const micro::Package& gemm_kq, const micro::Package& gemm_vs) const;
     std::vector<FusedOpType> GetSupportedFusedOps() const override {
         return {};
     }
 
     void init_microkernels(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const;
-    clKernelData get_kernel_data(const sdpa_params& params, micro::Package& gemm_kq, micro::Package& gemm_vs, bool is_prefill) const;
+    clKernelData get_kernel_data(const sdpa_params& params, bool is_prefill) const;
 
 private:
-    mutable std::vector<micro::Package> gemms_kq;
-    mutable std::vector<micro::Package> gemms_vs;
-
     static constexpr size_t prefill_id = 0;
     static constexpr size_t generate_id = 1;
+
+    static constexpr size_t kq_id = 0;
+    static constexpr size_t vs_id = 1;
+
     static std::mutex m;
 };
 }  // namespace kernel_selector
diff --git a/src/plugins/intel_gpu/src/kernel_selector/micro_utils.hpp b/src/plugins/intel_gpu/src/kernel_selector/micro_utils.hpp
@@ -10,16 +10,11 @@
 #   undef UNUSED
 #endif
 
-#ifdef __FILENAME__
-#   undef __FILENAME__
-#endif
-
 #ifndef NOMINMAX
 # define NOMINMAX
 #endif
 
 #include "gpu/intel/microkernels/package.hpp"
-#include "gpu/intel/jit/jit_generator.hpp"
 #include "gpu/intel/jit/gemm/microkernel_provider.hpp"
 #include "gpu/intel/jit/gemm/gen_gemm_kernel_generator.hpp"
 #include "gpu/intel/microkernels/shim.hpp"
@@ -38,6 +33,14 @@ namespace micro {
     using ShimOptions = dnnl::impl::gpu::intel::micro::ShimOptions;
     using HostLanguage = dnnl::impl::gpu::intel::micro::HostLanguage;
 
+    // Wrapper for Package which is used in clKernelData with forward declaration
+    // to avoid including this header in many places in plugin
+    // which may cause symbols conflicts with oneDNN
+    struct MicroKernelPackage {
+        explicit MicroKernelPackage(Package _p) : p(_p) {}
+        Package p;
+    };
+
     inline Package select_gemm_microkernel(GEMMProtocol protocol, HWInformation hw_info, SizeParams sizes, const GEMMProblem &problem,
                                            const std::vector<StrategyRequirement> &reqs = std::vector<StrategyRequirement>(),
                                            void (*strategyAdjuster)(GEMMStrategy &strategy) = nullptr) {
@@ -50,7 +53,6 @@ namespace micro {
 
 }  // namespace micro
 
-#undef __FILENAME__
 #undef UNUSED
 
 #endif  // ENABLE_ONEDNN_FOR_GPU
diff --git a/src/plugins/intel_gpu/src/runtime/kernels_cache.cpp b/src/plugins/intel_gpu/src/runtime/kernels_cache.cpp
@@ -7,6 +7,10 @@
 #include "ocl/ocl_kernel.hpp"
 #include "ocl/ocl_engine.hpp"
 #include "ocl/ocl_common.hpp"
+#include "intel_gpu/graph/serialization/set_serializer.hpp"
+#include "intel_gpu/graph/serialization/vector_serializer.hpp"
+#include "intel_gpu/graph/serialization/map_serializer.hpp"
+#include "intel_gpu/graph/serialization/string_serializer.hpp"
 #include "intel_gpu/runtime/debug_configuration.hpp"
 #include "intel_gpu/runtime/itt.hpp"
 #include "intel_gpu/runtime/file_util.hpp"
diff --git a/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.cpp b/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.cpp
@@ -2,13 +2,11 @@
 // SPDX-License-Identifier: Apache-2.0
 //
 
-// Include jit_generator first to resolve __FILENAME__ macro conflct with debug_configuration.hpp
 #ifdef ENABLE_ONEDNN_FOR_GPU
 #ifndef NOMINMAX
 # define NOMINMAX
 #endif
 #include "gpu/intel/jit/jit_generator.hpp"
-#undef __FILENAME__
 #endif
 
 #include "ocl_device.hpp"
diff --git a/src/plugins/intel_gpu/src/runtime/ocl/ocl_wrapper.hpp b/src/plugins/intel_gpu/src/runtime/ocl/ocl_wrapper.hpp
@@ -50,13 +50,15 @@
     #pragma clang diagnostic ignored "-Wunused-variable"
     #pragma clang diagnostic ignored "-Wunused-function"
     #pragma clang diagnostic ignored "-Wignored-qualifiers"
+    #pragma clang diagnostic ignored "-Wdeprecated-declarations"
 #elif defined __GNUC__
     #pragma GCC diagnostic push
     #pragma GCC diagnostic ignored "-Wsign-compare"
     #pragma GCC diagnostic ignored "-Wunused-parameter"
     #pragma GCC diagnostic ignored "-Wunused-variable"
     #pragma GCC diagnostic ignored "-Wunused-function"
     #pragma GCC diagnostic ignored "-Wignored-qualifiers"
+    #pragma GCC diagnostic ignored "-Wdeprecated-declarations"
     #if __GNUC__ >= 8
     #pragma GCC diagnostic ignored "-Wcatch-value"
     #endif