Improve Error Messaging for Flash Attention 2 on CPU (huggingface#33655)

sizhky · BernardZach · commit 7cf9d93d9e01 · 2024-12-05T09:30:25.000-05:00
Update flash-attn error message on CPU

Rebased to latest branch
diff --git a/src/transformers/modeling_utils.py b/src/transformers/modeling_utils.py
@@ -1698,6 +1698,10 @@ def _check_and_enable_flash_attn_2(
                     raise ImportError(
                         f"{preface} you need flash_attn package version to be greater or equal than 2.1.0. Detected version {flash_attention_version}. {install_message}"
                     )
+                elif not torch.cuda.is_available():
+                    raise ValueError(
+                        f"{preface} Flash Attention 2 is not available on CPU. Please make sure torch can access a CUDA device."
+                    )
                 else:
                     raise ImportError(f"{preface} Flash Attention 2 is not available. {install_message}")
             elif torch.version.hip: