[Fix] Fix a bug for flashmla to run R1 model (sgl-project#5875)

pengcuo · pengcuo · tarinkk · commit 443e94eb9bc4 · 2025-05-09T12:12:40.000Z
Co-authored-by: pengcuo &lt;dgpengcuo@gmail.com&gt;
diff --git a/python/sglang/srt/layers/attention/flashmla_backend.py b/python/sglang/srt/layers/attention/flashmla_backend.py
@@ -241,6 +241,9 @@ def init_forward_metadata_replay_cuda_graph(
                 seq_lens_cpu,
             )
 
+    def get_cuda_graph_seq_len_fill_value(self):
+        return 1024
+
     def forward_decode(
         self,
         q: torch.Tensor,

Original file line number	Diff line number	Diff line change
`@@ -241,6 +241,9 @@ def init_forward_metadata_replay_cuda_graph(`
`241`	`241`	`seq_lens_cpu,`
`242`	`242`	`)`
`243`	`243`
	`244`	`+ def get_cuda_graph_seq_len_fill_value(self):`
	`245`	`+ return 1024`
	`246`	`+`
`244`	`247`	`def forward_decode(`
`245`	`248`	`self,`
`246`	`249`	`q: torch.Tensor,`