flashinfer-ai
diff --git a/‎csrc/fmhaReduction.cu‎
Lines changed: 36 additions & 32 deletions b/‎csrc/fmhaReduction.cu‎
Lines changed: 36 additions & 32 deletions
diff --git a/‎csrc/trtllm_fmha_kernel_launcher.cu‎
Lines changed: 15 additions & 12 deletions b/‎csrc/trtllm_fmha_kernel_launcher.cu‎
Lines changed: 15 additions & 12 deletions
diff --git a/‎flashinfer/mla/_core.py‎
Lines changed: 46 additions & 32 deletions b/‎flashinfer/mla/_core.py‎
Lines changed: 46 additions & 32 deletions
@@ -36,8 +36,7 @@ template <int32_t TileSizePerCtaQ, int32_t HeadDimPerCta, bool IsE4m3Bmm, typena
 __global__ void __launch_bounds__(NumThreadsPerCta, 2)
     fmhaReductionKernel(KernelParams const params, bool isTokenSparse, bool groupsTokensHeadsQ,
                         bool supportsVarSparseMlaTopKLens, int32_t numCtasForReduction,
-                        int32_t numCtasForAllHeads, int32_t headDimV,
-                        int32_t numHeadDimCtasV) {
+                        int32_t numCtasForAllHeads, int32_t headDimV, int32_t numHeadDimCtasV) {
   // clang-format off
   // The shape of partialO buffer: [batchSize, numHeadCtas, numCtasQ, numCtasKv, TileSizePerCtaQ, headDimPerCta].
   // The shape of final O buffer: [batchSize, numCtasQ, numHeadsQ, headDim].
@@ -285,37 +284,37 @@ __global__ void __launch_bounds__(NumThreadsPerCta, 2)
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-#define SELECT_FMHA_REDUCTION_KERNEL(TileSizePerCtaQ, HeadDimPerCta)                              \
-  if (kernelMeta.mDataTypeQ == DATA_TYPE_E4M3) {                                                  \
-    if (kernelMeta.mDataTypeO == DATA_TYPE_E4M3) {                                                \
-      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, __nv_fp8_e4m3, half>;   \
-    } else if (kernelMeta.mDataTypeO == DATA_TYPE_FP16) {                                         \
-      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, half, half>;            \
-    } else if (kernelMeta.mDataTypeO == DATA_TYPE_BF16) {                                         \
-      kernel =                                                                                   \
-          &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, __nv_bfloat16, __nv_bfloat16>; \
-    } else {                                                                                      \
-      FLASHINFER_CHECK(false, "Not implemented");                                                 \
-    }                                                                                             \
-  } else {                                                                                        \
-    FLASHINFER_CHECK(kernelMeta.mDataTypeQ == kernelMeta.mDataTypeO, "Not implemented");          \
-    if (kernelMeta.mDataTypeQ == DATA_TYPE_FP16) {                                                \
-      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, false, half, half>;           \
-    } else if (kernelMeta.mDataTypeQ == DATA_TYPE_BF16) {                                         \
-      kernel =                                                                                   \
-          &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, false, __nv_bfloat16, __nv_bfloat16>; \
-    } else {                                                                                      \
-      FLASHINFER_CHECK(false, "Not implemented");                                                 \
-    }                                                                                             \
+#define SELECT_FMHA_REDUCTION_KERNEL(TileSizePerCtaQ, HeadDimPerCta)                            \
+  if (kernelMeta.mDataTypeQ == DATA_TYPE_E4M3) {                                                \
+    if (kernelMeta.mDataTypeO == DATA_TYPE_E4M3) {                                              \
+      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, __nv_fp8_e4m3, half>; \
+    } else if (kernelMeta.mDataTypeO == DATA_TYPE_FP16) {                                       \
+      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, half, half>;          \
+    } else if (kernelMeta.mDataTypeO == DATA_TYPE_BF16) {                                       \
+      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, true, __nv_bfloat16,        \
+                                    __nv_bfloat16>;                                             \
+    } else {                                                                                    \
+      FLASHINFER_CHECK(false, "Not implemented");                                               \
+    }                                                                                           \
+  } else {                                                                                      \
+    FLASHINFER_CHECK(kernelMeta.mDataTypeQ == kernelMeta.mDataTypeO, "Not implemented");        \
+    if (kernelMeta.mDataTypeQ == DATA_TYPE_FP16) {                                              \
+      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, false, half, half>;         \
+    } else if (kernelMeta.mDataTypeQ == DATA_TYPE_BF16) {                                       \
+      kernel = &fmhaReductionKernel<TileSizePerCtaQ, HeadDimPerCta, false, __nv_bfloat16,       \
+                                    __nv_bfloat16>;                                             \
+    } else {                                                                                    \
+      FLASHINFER_CHECK(false, "Not implemented");                                               \
+    }                                                                                           \
   }
 
-#define SELECT_FMHA_REDUCTION_KERNEL_WITH_HEAD_DIM_PER_CTA(HeadDimPerCta)                         \
-  if (kernelMeta.mTileSizeQ == 64) {                                                              \
-    SELECT_FMHA_REDUCTION_KERNEL(64, HeadDimPerCta);                                              \
-  } else if (kernelMeta.mTileSizeQ == 128) {                                                       \
-    SELECT_FMHA_REDUCTION_KERNEL(128, HeadDimPerCta);                                             \
-  } else {                                                                                         \
-    FLASHINFER_CHECK(false, "Not implemented");                                                   \
+#define SELECT_FMHA_REDUCTION_KERNEL_WITH_HEAD_DIM_PER_CTA(HeadDimPerCta) \
+  if (kernelMeta.mTileSizeQ == 64) {                                      \
+    SELECT_FMHA_REDUCTION_KERNEL(64, HeadDimPerCta);                      \
+  } else if (kernelMeta.mTileSizeQ == 128) {                              \
+    SELECT_FMHA_REDUCTION_KERNEL(128, HeadDimPerCta);                     \
+  } else {                                                                \
+    FLASHINFER_CHECK(false, "Not implemented");                           \
   }
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -403,7 +402,12 @@ void runFmhaReduction(TllmGenFmhaKernelMetaInfo const& kernelMeta, KernelParams
 
   // Launch the kernel.
   bool const supportsVarSparseMlaTopKLens =
-      kernelMeta.mSparseAttn == 2 && kernelMeta.mHeadDimQk == 512 && kernelMeta.mHeadDimV == 512;
+      isDynamicTokenSparseMla(static_cast<TrtllmGenSparseMlaType>(kernelMeta.mSparseAttn)) &&
+      kernelMeta.mHeadDimQk == 512 && kernelMeta.mHeadDimV == 512;
+  if (supportsVarSparseMlaTopKLens) {
+    FLASHINFER_CHECK(params.ptrSparseMlaTopKLens != nullptr,
+                     "Dynamic sparse MLA reduction requires sparseMlaTopkLengths.");
+  }
   cudaLaunchKernelEx(&config, kernel, params, kernelMeta.mSparseAttn != 0,
                      kernelMeta.mGroupsTokensHeadsQ, supportsVarSparseMlaTopKLens,
                      numCtasForReduction, numCtasForAllHeads, kernelMeta.mHeadDimV,
 
@@ -169,11 +169,10 @@ void trtllm_paged_attention_launcher(
 
   // The sparse MLA parameters.
   runner_params.mSparseMlaType =
-      sparse_mla_top_k <= 0 ? TrtllmGenSparseMlaType::None
-                            : (sparse_mla_top_k_lens != nullptr
-                                   ? TrtllmGenSparseMlaType::DynamicTokenSparse
-                                   : TrtllmGenSparseMlaType::StaticTokenSparse);
-  runner_params.mSparseMla = isSparseMla(runner_params.mSparseMlaType);
+      sparse_mla_top_k <= 0
+          ? TrtllmGenSparseMlaType::None
+          : (sparse_mla_top_k_lens != nullptr ? TrtllmGenSparseMlaType::DynamicTokenSparse
+                                              : TrtllmGenSparseMlaType::StaticTokenSparse);
   runner_params.mSparseMlaTopK = sparse_mla_top_k;
   runner_params.sparseMlaTopKLensPtr = sparse_mla_top_k_lens;
   runner_params.mHasSlidingWindowKvPool = has_sliding_window_kv_pool;
@@ -737,8 +736,8 @@ void trtllm_paged_attention_decode_sparse_mla_dsv4(
     TensorView sliding_window_kv_cache, TensorView workspace_buffer, TensorView sparse_indices,
     TensorView seq_lens, TensorView sparse_mla_top_k_lens, Variant<double, ffi::Tensor> bmm1_scale,
     Variant<double, ffi::Tensor> bmm2_scale, int64_t batch_size, int64_t max_q_len,
-    int64_t sm_count, bool enable_pdl, int64_t workspace_size,
-    Optional<TensorView> attention_sinks, Optional<TensorView> cum_seq_lens_q) {
+    int64_t sm_count, bool enable_pdl, int64_t workspace_size, Optional<TensorView> attention_sinks,
+    Optional<TensorView> cum_seq_lens_q) {
   auto q_data_type = dl_dtype_to_tllm_data_type(query.dtype());
   auto kv_data_type = dl_dtype_to_tllm_data_type(primary_kv_cache.dtype());
   auto o_data_type = dl_dtype_to_tllm_data_type(out.dtype());
@@ -777,6 +776,10 @@ void trtllm_paged_attention_decode_sparse_mla_dsv4(
   if (is_varlen_q) {
     TVM_FFI_ICHECK_EQ(cum_seq_lens_q.value().ndim(), 1);
     TVM_FFI_ICHECK_EQ(cum_seq_lens_q.value().dtype(), dl_int32);
+    TVM_FFI_ICHECK_EQ(cum_seq_lens_q.value().device().device_type, query.device().device_type)
+        << "cum_seq_lens_q must be on the same device as query";
+    TVM_FFI_ICHECK_EQ(cum_seq_lens_q.value().device().device_id, query.device().device_id)
+        << "cum_seq_lens_q must be on the same device as query";
     TVM_FFI_ICHECK_EQ(cum_seq_lens_q.value().size(0), batch_size + 1);
   } else {
     TVM_FFI_ICHECK_EQ(sum_seq_q, batch_size * max_q_len);
@@ -785,8 +788,8 @@ void trtllm_paged_attention_decode_sparse_mla_dsv4(
   int const head_dim_q = is_4bit(q_data_type) ? query.size(-1) * 2 : query.size(-1);
   int const head_dim_k =
       is_4bit(kv_data_type) ? primary_kv_cache.size(-1) * 2 : primary_kv_cache.size(-1);
-  int const head_dim_sw = is_4bit(q_data_type) ? sliding_window_kv_cache.size(-1) * 2
-                                               : sliding_window_kv_cache.size(-1);
+  int const head_dim_sw = is_4bit(kv_data_type) ? sliding_window_kv_cache.size(-1) * 2
+                                                : sliding_window_kv_cache.size(-1);
   int const head_dim_o = is_4bit(o_data_type) ? out.size(-1) * 2 : out.size(-1);
   TVM_FFI_ICHECK_EQ(head_dim_q, 512);
   TVM_FFI_ICHECK_EQ(head_dim_k, 512);
@@ -836,9 +839,9 @@ void trtllm_paged_attention_decode_sparse_mla_dsv4(
       out.data_ptr(), /*out_scale_factor=*/nullptr, query.data_ptr(), primary_kv_cache.data_ptr(),
       primary_kv_cache.data_ptr(), workspace_buffer.data_ptr(),
       static_cast<int*>(sparse_indices.data_ptr()), /*k_block_scales_ptr=*/nullptr,
-      /*v_block_scales_ptr=*/nullptr, static_cast<int*>(seq_lens.data_ptr()),
-      cum_seq_lens_q_ptr, /*cum_seq_lens_kv=*/nullptr, attention_sinks_ptr, q_data_type,
-      kv_data_type, o_data_type, TllmPagedAttentionMode::ForGen, batch_size, max_q_len,
+      /*v_block_scales_ptr=*/nullptr, static_cast<int*>(seq_lens.data_ptr()), cum_seq_lens_q_ptr,
+      /*cum_seq_lens_kv=*/nullptr, attention_sinks_ptr, q_data_type, kv_data_type, o_data_type,
+      TllmPagedAttentionMode::ForGen, batch_size, max_q_len,
       /*max_kv_len=*/sparse_mla_top_k, num_pages_in_mem_pool, num_qo_heads, num_kv_heads,
       head_dim_q, head_dim_o, page_size, q_stride_tokens, q_stride_heads, kv_stride_keys_values,
       kv_stride_heads, kv_stride_batch, /*max_num_blocks_per_seq=*/sparse_mla_top_k,
 
@@ -17,6 +17,7 @@
 from dataclasses import dataclass
 import functools
 import math
+import os
 from typing import List, Literal, Optional, Tuple, Union, overload
 
 import torch
@@ -233,10 +234,13 @@ def _normalize_dsv4_topk_lens(
     q_len_per_request: int,
     sum_seq_q: int,
     name: str,
+    device: torch.device,
     cum_seq_lens_q: Optional[torch.Tensor] = None,
 ) -> torch.Tensor:
     if topk_lens.dtype != torch.int32:
         raise ValueError(f"{name} must have dtype torch.int32, got {topk_lens.dtype}")
+    if topk_lens.device != device:
+        raise ValueError(f"{name} must be on device {device}, got {topk_lens.device}")
     if topk_lens.ndim != 1:
         raise ValueError(f"Expected flattened {name}.ndim == 1, got {topk_lens.ndim}")
     if topk_lens.size(0) != sum_seq_q:
@@ -249,12 +253,16 @@ def _normalize_dsv4_topk_lens(
             cum_seq_lens_q,
             (batch_size + 1,),
             torch.int32,
-            cum_seq_lens_q.device,
+            device,
             "cum_seq_lens_q",
         )
     return topk_lens
 
 
+def _validate_dsv4_sync_checks() -> bool:
+    return os.environ.get("FLASHINFER_VALIDATE_INPUTS", "0") not in ("0", "")
+
+
 def _check_dsv4_sparse_mla_inputs(
     query: torch.Tensor,
     swa_kv_cache: torch.Tensor,
@@ -277,13 +285,16 @@ def _check_dsv4_sparse_mla_inputs(
     Optional[torch.Tensor],
 ]:
     is_varlen_q = cum_seq_lens_q is not None
+    out_shape: Tuple[int, ...]
+    sparse_indices_prefix_shape: Tuple[int, ...]
     if is_varlen_q:
         if query.ndim != 3:
             raise ValueError(
                 "Expected query.ndim == 3 when cum_seq_lens_q is provided, "
                 f"got {query.ndim}"
             )
-        assert cum_seq_lens_q is not None
+        if cum_seq_lens_q is None:
+            raise ValueError("cum_seq_lens_q is required for varlen query input")
         if cum_seq_lens_q.dtype != torch.int32:
             raise ValueError(
                 f"cum_seq_lens_q must have dtype torch.int32, got {cum_seq_lens_q.dtype}"
@@ -297,6 +308,11 @@ def _check_dsv4_sparse_mla_inputs(
             raise ValueError(
                 f"Expected cum_seq_lens_q.numel() >= 2, got {cum_seq_lens_q.numel()}"
             )
+        if cum_seq_lens_q.device != query.device:
+            raise ValueError(
+                f"cum_seq_lens_q must be on query device {query.device}, "
+                f"got {cum_seq_lens_q.device}"
+            )
         sum_seq_q, num_heads, head_dim = query.shape
         if max_q_len is None:
             max_q_len = int((cum_seq_lens_q[1:] - cum_seq_lens_q[:-1]).max().item())
@@ -331,7 +347,11 @@ def _check_dsv4_sparse_mla_inputs(
     if num_heads not in (64, 128):
         raise ValueError(f"Expected 64 or 128 query heads, got {num_heads}")
 
-    if sparse_indices is None or compressed_kv_cache is None or sparse_topk_lens is None:
+    if (
+        sparse_indices is None
+        or compressed_kv_cache is None
+        or sparse_topk_lens is None
+    ):
         raise ValueError(
             "sparse_indices, compressed_kv_cache, and sparse_topk_lens are required"
         )
@@ -346,8 +366,7 @@ def _check_dsv4_sparse_mla_inputs(
         )
     if sparse_indices.ndim != 2:
         raise ValueError(
-            "Expected flattened sparse_indices.ndim == 2, got "
-            f"{sparse_indices.ndim}"
+            f"Expected flattened sparse_indices.ndim == 2, got {sparse_indices.ndim}"
         )
     if sparse_indices.shape[:-1] != sparse_indices_prefix_shape:
         raise ValueError(
@@ -396,8 +415,9 @@ def _check_dsv4_sparse_mla_inputs(
         q_len_per_request,
         sum_seq_q,
         "sparse_topk_lens",
+        query.device,
         cum_seq_lens_q,
-    ).to(query.device)
+    )
     if normalized_sparse_lens.numel() > 0:
         min_sparse_len = int(normalized_sparse_lens.min().item())
         max_sparse_len = int(normalized_sparse_lens.max().item())
@@ -419,9 +439,6 @@ def _check_dsv4_sparse_mla_inputs(
             sinks, (num_heads,), torch.float32, query.device, "sinks"
         )
 
-    if cum_seq_lens_q is not None:
-        cum_seq_lens_q = cum_seq_lens_q.to(query.device)
-
     return (
         swa_kv_cache,
         compressed_kv_cache,
@@ -515,10 +532,12 @@ def trtllm_batch_decode_sparse_mla_dsv4(
     if enable_pdl is None:
         enable_pdl = device_support_pdl(query.device)
     if isinstance(bmm1_scale, torch.Tensor):
-        assert bmm1_scale.dtype == torch.float32
+        if bmm1_scale.dtype != torch.float32:
+            raise TypeError("bmm1_scale tensor must have dtype torch.float32")
         bmm1_scale = bmm1_scale * log2e
     if isinstance(bmm2_scale, torch.Tensor):
-        assert bmm2_scale.dtype == torch.float32
+        if bmm2_scale.dtype != torch.float32:
+            raise TypeError("bmm2_scale tensor must have dtype torch.float32")
 
     (
         swa_kv_cache,
@@ -529,37 +548,30 @@ def trtllm_batch_decode_sparse_mla_dsv4(
         query_flat,
         expected_out_shape,
         cum_seq_lens_q,
-    ) = (
-        _check_dsv4_sparse_mla_inputs(
-            query,
-            swa_kv_cache,
-            sparse_indices,
-            compressed_kv_cache,
-            sparse_topk_lens,
-            out,
-            sinks,
-            kv_layout,
-            cum_seq_lens_q,
-            max_q_len,
-        )
+    ) = _check_dsv4_sparse_mla_inputs(
+        query,
+        swa_kv_cache,
+        sparse_indices,
+        compressed_kv_cache,
+        sparse_topk_lens,
+        out,
+        sinks,
+        kv_layout,
+        cum_seq_lens_q,
+        max_q_len,
     )
 
     if out is None:
         out = torch.empty(expected_out_shape, dtype=torch.bfloat16, device=query.device)
 
-    if seq_lens is None:
-        raise ValueError(
-            "seq_lens is required for DeepSeek V4 sparse MLA because TRTLLM-GEN "
-            "uses it to mask the fixed SWA-128 tile"
-        )
     check_shape_dtype_device(
         seq_lens, (batch_size,), torch.int32, query.device, "seq_lens"
     )
     if cum_seq_lens_q is None:
         q_lens = seq_lens.new_full((batch_size,), q_len_per_request)
     else:
         q_lens = cum_seq_lens_q[1:] - cum_seq_lens_q[:-1]
-    if torch.any(seq_lens < q_lens).item():
+    if _validate_dsv4_sync_checks() and torch.any(seq_lens < q_lens).item():
         raise ValueError(
             "seq_lens must be greater than or equal to the per-request query "
             "lengths so TRTLLM-GEN can derive the SWA-128 valid window"
@@ -1120,10 +1132,12 @@ def trtllm_batch_decode_with_kv_cache_mla(
             "trtllm-gen" if get_compute_capability(query.device)[0] == 10 else "xqa"
         )
     if isinstance(bmm1_scale, torch.Tensor):
-        assert bmm1_scale.dtype == torch.float32
+        if bmm1_scale.dtype != torch.float32:
+            raise TypeError("bmm1_scale tensor must have dtype torch.float32")
         bmm1_scale = bmm1_scale * log2e
     if isinstance(bmm2_scale, torch.Tensor):
-        assert bmm2_scale.dtype == torch.float32
+        if bmm2_scale.dtype != torch.float32:
+            raise TypeError("bmm2_scale tensor must have dtype torch.float32")
     if backend == "xqa":
         if not is_sm12x_supported(query.device):
             raise ValueError(