codeplaysoftware · aacostadiaz · Jul 7, 2025 · Jul 7, 2025 · Jul 8, 2025 · Jul 8, 2025
diff --git a/.github/workflows/intel_test.yml b/.github/workflows/intel_test.yml
@@ -95,8 +95,9 @@ jobs:
           cmake -G Ninja  \
             -DCUTLASS_ENABLE_SYCL=ON \
             -DDPCPP_SYCL_TARGET=${{ matrix.sycl_target }} \
-            -DCUTLASS_SYCL_RUNNING_CI=ON
-          cmake --build .
+            -DCUTLASS_ENABLE_BENCHMARKS=OFF \
+            -DCUTLASS_SYCL_RUNNING_CI=ON 
+          cmake --build .  -j$(($(nproc) / 2))
       - name: Unit test
         shell: bash
         run: |
@@ -105,7 +106,3 @@ jobs:
         shell: bash
         run: |
           cmake --build . --target test_examples -j 1
-      - name: Benchmarks
-        shell: bash
-        run: |
-          cmake --build . --target cutlass_benchmarks
diff --git a/examples/cute/tutorial/sgemm_1_sycl.cpp b/examples/cute/tutorial/sgemm_1_sycl.cpp
@@ -202,8 +202,6 @@ gemm_device(ProblemShape shape_MNK, CtaTiler cta_tiler,
     //     tAsA(i) = tAgAk(i);
     //   }
 
-    cp_async_fence();        // Label the end of (potential) cp.async instructions
-    cp_async_wait<0>();      // Sync on all (potential) cp.async instructions
     syclcompat::wg_barrier();// Wait for all threads to write to smem
 
     // Compute gemm on tC thread-partitioned smem

diff --git a/include/cute/atom/copy_atom.hpp b/include/cute/atom/copy_atom.hpp
@@ -729,11 +729,15 @@ print_latex_copy(LayoutS const& S, ThrIDS const& TS,  // (m,n) -> (tid,vid)  and
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+#if defined(SYCL_INTEL_TARGET)
+#include <cute/atom/copy_traits_xe.hpp>
+#else
 #include <cute/atom/copy_traits_sm50.hpp>
 #include <cute/atom/copy_traits_sm75.hpp>
 #include <cute/atom/copy_traits_sm80.hpp>
 #include <cute/atom/copy_traits_sm90.hpp>
 #include <cute/atom/copy_traits_sm100.hpp>
+#endif
 
 
 // Config
@@ -761,9 +765,4 @@ print_latex_copy(LayoutS const& S, ThrIDS const& TS,  // (m,n) -> (tid,vid)  and
 #include <cute/atom/copy_traits_sm100_tma.hpp>
 #endif
 
-
-#if defined(SYCL_INTEL_TARGET)
-#include <cute/atom/copy_traits_xe.hpp>
-#endif
-
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/include/cute/atom/mma_atom.hpp b/include/cute/atom/mma_atom.hpp
@@ -36,10 +36,6 @@
 #include <cute/tensor_impl.hpp>
 #include <cute/util/type_traits.hpp>
 
-#if defined(CUTLASS_ENABLE_SYCL)
-#include <cute/atom/mma_traits_xe.hpp>
-#endif
-
 namespace cute {
 
 template <class... Args>
@@ -1184,6 +1180,9 @@ print_svg(TiledMMA<Args...> const &mma) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+#if defined(SYCL_INTEL_TARGET)
+#include <cute/atom/mma_traits_xe.hpp>
+#else
 #include <cute/atom/mma_traits_sm61.hpp>
 #include <cute/atom/mma_traits_sm70.hpp>
 #include <cute/atom/mma_traits_sm75.hpp>
@@ -1194,8 +1193,5 @@ print_svg(TiledMMA<Args...> const &mma) {
 #include <cute/atom/mma_traits_sm100.hpp>
 #include <cute/atom/mma_traits_sm120.hpp>
 #include <cute/atom/mma_traits_sm120_sparse.hpp>
-
-#if defined(CUTLASS_ENABLE_SYCL)
-#include <cute/atom/mma_traits_xe.hpp>
 #endif
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/include/cutlass/conv/collective/collective_builder.hpp b/include/cutlass/conv/collective/collective_builder.hpp
@@ -89,6 +89,8 @@ struct CollectiveBuilder {
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
+#if !defined(SYCL_INTEL_TARGET)
 #include "builders/sm90_gmma_builder.inl"
-#include "builders/sm100_umma_builder.inl" 
+#include "builders/sm100_umma_builder.inl"
+#endif
 /////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/include/cutlass/epilogue/collective/collective_builder.hpp b/include/cutlass/epilogue/collective/collective_builder.hpp
@@ -118,12 +118,12 @@ struct CallbacksBuilder<
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
+#if defined(SYCL_INTEL_TARGET)
+#include "builders/xe_builder.inl"
+#else
 #include "builders/sm90_builder.inl"
 #include "builders/sm100_builder.inl"
 #include "builders/sm120_builder.inl"
-
-#if defined(SYCL_INTEL_TARGET)
-#include "builders/xe_builder.inl"
 #endif
 
 #if defined(CUTLASS_ENABLE_SYCL)

diff --git a/include/cutlass/epilogue/collective/collective_epilogue.hpp b/include/cutlass/epilogue/collective/collective_epilogue.hpp
@@ -57,6 +57,10 @@ class CollectiveEpilogue {
 //
 // Gemm
 //
+#if defined (SYCL_INTEL_TARGET)
+#include "xe_epilogue.hpp"
+#include "xe_array_epilogue.hpp"
+#else
 #include "default_epilogue.hpp"
 #include "default_epilogue_array.hpp"
 #include "epilogue_tensor_broadcast.hpp"
@@ -69,9 +73,6 @@ class CollectiveEpilogue {
 #include "sm100_epilogue_array_nosmem.hpp"
 #include "sm100_epilogue_tma_warpspecialized.hpp"
 #include "sm100_epilogue_array_tma_warpspecialized.hpp"
-#if defined (SYCL_INTEL_TARGET)
-#include "xe_epilogue.hpp"
-#include "xe_array_epilogue.hpp"
 #endif
 //
 // Conv

diff --git a/include/cutlass/gemm/collective/collective_builder.hpp b/include/cutlass/gemm/collective/collective_builder.hpp
@@ -37,6 +37,9 @@
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
 #include "cutlass/gemm/collective/collective_builder_decl.hpp"
+#if defined(SYCL_INTEL_TARGET)
+#include "cutlass/gemm/collective/builders/xe_mma_builder.inl"
+#else
 #include "cutlass/gemm/collective/builders/sm90_gmma_builder.inl"
 #include "cutlass/gemm/collective/builders/sm90_sparse_gmma_builder.inl"
 #if !defined(__CUDACC_RTC__) 
@@ -51,9 +54,6 @@
 #include "cutlass/gemm/collective/builders/sm120_sparse_mma_builder.inl"
 #include "cutlass/gemm/collective/builders/sm120_blockscaled_sparse_mma_builder.inl"
 #endif
-
-#if defined(SYCL_INTEL_TARGET)
-#include "cutlass/gemm/collective/builders/xe_mma_builder.inl"
 #endif
 
 #if defined(CUTLASS_ENABLE_SYCL)

diff --git a/include/cutlass/gemm/collective/collective_mma.hpp b/include/cutlass/gemm/collective/collective_mma.hpp
@@ -34,7 +34,14 @@
 
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
-
+#if defined(SYCL_INTEL_TARGET)
+#include "cutlass/gemm/collective/xe_mma.hpp"
+#include "cutlass/gemm/collective/xe_array_mma.hpp"
+#include "cutlass/gemm/collective/xe_array_mma_fp8.hpp"
+#include "cutlass/gemm/collective/xe_mma_mixed_input.hpp"
+#include "cutlass/gemm/collective/xe_mma_w8a8.hpp"
+#include "cutlass/gemm/collective/xe_mma_fp8_scaling.hpp"
+#else
 #include "cutlass/gemm/collective/sm70_mma_twostage.hpp"
 #include "cutlass/gemm/collective/sm80_mma_multistage.hpp"
 #include "cutlass/gemm/collective/sm90_mma_multistage_gmma_ss_warpspecialized.hpp"
@@ -68,14 +75,6 @@
 #include "cutlass/gemm/collective/sm120_sparse_mma_tma.hpp"
 #include "cutlass/gemm/collective/sm120_blockscaled_sparse_mma_tma.hpp"
 #endif // !defined(__CUDACC_RTC__)
-
-#if defined(SYCL_INTEL_TARGET)
-#include "cutlass/gemm/collective/xe_mma.hpp"
-#include "cutlass/gemm/collective/xe_array_mma.hpp"
-#include "cutlass/gemm/collective/xe_array_mma_fp8.hpp"
-#include "cutlass/gemm/collective/xe_mma_mixed_input.hpp"
-#include "cutlass/gemm/collective/xe_mma_w8a8.hpp"
-#include "cutlass/gemm/collective/xe_mma_fp8_scaling.hpp"
 #endif
 
 #if defined(CUTLASS_ENABLE_SYCL)

diff --git a/include/cutlass/gemm/kernel/gemm_universal.hpp b/include/cutlass/gemm/kernel/gemm_universal.hpp
@@ -53,6 +53,11 @@ struct IsCutlass3ArrayKernel<ProblemShape, cute::void_t<typename ProblemShape::U
 
 ////////////////////////////////////////////////////////////////////////////////
 
+#if defined(SYCL_INTEL_TARGET)
+#include "cutlass/gemm/kernel/xe_gemm.hpp"
+#include "cutlass/gemm/kernel/xe_gemm_cooperative.hpp"
+#include "cutlass/gemm/kernel/xe_gemm_array_cooperative.hpp"
+#else
 #include "cutlass/gemm/kernel/sm70_gemm.hpp"
 #include "cutlass/gemm/kernel/sm90_gemm_tma.hpp"
 #include "cutlass/gemm/kernel/sm90_gemm_warpspecialized.hpp"
@@ -71,11 +76,6 @@ struct IsCutlass3ArrayKernel<ProblemShape, cute::void_t<typename ProblemShape::U
 #include "cutlass/gemm/kernel/sm100_gemm_array_tma_warpspecialized_mma_transform.hpp"
 #include "cutlass/gemm/kernel/sm100_sparse_gemm_tma_warpspecialized.hpp"
 #include "cutlass/gemm/kernel/sm120_gemm_tma_warpspecialized_cooperative_asymmetric_dma.hpp"
-
-#if defined(SYCL_INTEL_TARGET)
-#include "cutlass/gemm/kernel/xe_gemm.hpp"
-#include "cutlass/gemm/kernel/xe_gemm_cooperative.hpp"
-#include "cutlass/gemm/kernel/xe_gemm_array_cooperative.hpp"
 #endif
 
 ////////////////////////////////////////////////////////////////////////////////
diff --git a/include/cutlass/gemm/kernel/tile_scheduler.hpp b/include/cutlass/gemm/kernel/tile_scheduler.hpp
@@ -60,16 +60,18 @@ struct StaticPersistentScheduler { };
 ////////////////////////////////////////////////////////////////////////////////
 
 #include "cutlass/gemm/kernel/sm90_tile_scheduler.hpp"
-#include "cutlass/gemm/kernel/sm100_static_tile_scheduler.hpp" 
+
+#if defined(SYCL_INTEL_TARGET)
+#include "cutlass/gemm/kernel/xe_tile_scheduler_streamk.hpp"
+#include "cutlass/gemm/kernel/xe_tile_scheduler_group.hpp"
+#else
+#include "cutlass/gemm/kernel/sm100_static_tile_scheduler.hpp"
 
 #include "cutlass/gemm/kernel/sm90_tile_scheduler_stream_k.hpp"
 #include "cutlass/gemm/kernel/sm90_tile_scheduler_group.hpp"
 #include "cutlass/gemm/kernel/sm100_tile_scheduler.hpp"            
 #include "cutlass/gemm/kernel/sm100_tile_scheduler_stream_k.hpp"   
 #include "cutlass/gemm/kernel/sm100_tile_scheduler_group.hpp"
-#if defined (SYCL_INTEL_TARGET)
-#include "cutlass/gemm/kernel/xe_tile_scheduler_streamk.hpp"
-#include "cutlass/gemm/kernel/xe_tile_scheduler_group.hpp"
 #endif
 ////////////////////////////////////////////////////////////////////////////////
 
@@ -96,14 +98,14 @@ template <
   class ArchTag,
   class TileShape,
   class ClusterShape
-  , uint32_t SchedulerPipelineStageCount     
+  , uint32_t SchedulerPipelineStageCount
 >
 struct TileSchedulerSelector<
     PersistentScheduler,
     ArchTag,
     TileShape,
     ClusterShape
-    , SchedulerPipelineStageCount              
+    , SchedulerPipelineStageCount
   > {
   using Scheduler = PersistentTileSchedulerSm90;
 };
@@ -131,6 +133,52 @@ struct TileSchedulerSelector<
   >::Scheduler;
 };
 
+#if defined(SYCL_INTEL_TARGET)
+template <
+  class TileShape,
+  class ClusterShape,
+  uint32_t ThreadsPerBlock
+>
+struct TileSchedulerSelector<
+  StreamKScheduler,
+  arch::IntelXe,
+  TileShape,
+  ClusterShape,
+  ThreadsPerBlock
+  > {
+  using Scheduler = PersistentTileSchedulerXeStreamK<TileShape, ThreadsPerBlock>;
+};
+
+template <
+  class TileShape,
+  class ClusterShape,
+  uint32_t SchedulerPipelineStageCount,
+  class GroupProblemShape
+>
+struct TileSchedulerSelector<
+    GroupScheduler,
+    arch::IntelXe,
+    TileShape,
+    ClusterShape,
+    SchedulerPipelineStageCount,
+    GroupProblemShape
+  > {
+  using Scheduler = PersistentTileSchedulerXeGroup<GroupProblemShape>;
+};
+template <
+  class TileShape,
+  class ClusterShape
+>
+struct TileSchedulerSelector<
+  PersistentScheduler,
+  arch::IntelXe,
+  TileShape,
+  ClusterShape
+  > {
+  using Scheduler = PersistentTileSchedulerSm90;
+};
+#else
+
 template <
   class TileShape,
   class ClusterShape
@@ -179,52 +227,6 @@ struct TileSchedulerSelector<
   using Scheduler = PersistentTileSchedulerSm90Group<GroupProblemShape, SchedulerPipelineStageCount>;
 };
 
-#if defined (SYCL_INTEL_TARGET)
-template <
-  class TileShape,
-  class ClusterShape,
-  uint32_t ThreadsPerBlock
->
-struct TileSchedulerSelector<
-  StreamKScheduler,
-  arch::IntelXe,
-  TileShape,
-  ClusterShape,
-  ThreadsPerBlock
-  > {
-  using Scheduler = PersistentTileSchedulerXeStreamK<TileShape, ThreadsPerBlock>;
-};
-
-template <
-  class TileShape,
-  class ClusterShape,
-  uint32_t SchedulerPipelineStageCount,
-  class GroupProblemShape
->
-struct TileSchedulerSelector<
-    GroupScheduler,
-    arch::IntelXe,
-    TileShape,
-    ClusterShape,
-    SchedulerPipelineStageCount,
-    GroupProblemShape
-  > {
-  using Scheduler = PersistentTileSchedulerXeGroup<GroupProblemShape>;
-};
-template <
-  class TileShape,
-  class ClusterShape
->
-struct TileSchedulerSelector<
-  PersistentScheduler,
-  arch::IntelXe,
-  TileShape,
-  ClusterShape
-  > {
-  using Scheduler = PersistentTileSchedulerSm90;
-};
-#endif
-
 template <class TileShape, class ClusterShape, uint32_t SchedulerPipelineStageCount>
 struct TileSchedulerSelector<
     PersistentScheduler,
@@ -405,6 +407,7 @@ struct TileSchedulerSelector<
   > {
   using Scheduler = PersistentTileSchedulerSm90Group<GroupProblemShape, SchedulerPipelineStageCount>;
 };
+#endif
 
 ////////////////////////////////////////////////////////////////////////////////