Skip to content

Commit 6a7ad57

Browse files
Add benchmarks for all types with refactor
1 parent 2a87b5f commit 6a7ad57

12 files changed

+781
-767
lines changed

.github/workflows/intel_test.yml

Lines changed: 8 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -95,7 +95,8 @@ jobs:
9595
cmake -G Ninja \
9696
-DCUTLASS_ENABLE_SYCL=ON \
9797
-DDPCPP_SYCL_TARGET=${{ matrix.sycl_target }} \
98-
-DCUTLASS_SYCL_RUNNING_CI=ON
98+
-DCUTLASS_SYCL_RUNNING_CI=ON \
99+
-DCUTLASS_ENABLE_BENCHMARKS=OFF
99100
cmake --build .
100101
- name: Unit test
101102
shell: bash
@@ -108,4 +109,9 @@ jobs:
108109
- name: Benchmarks
109110
shell: bash
110111
run: |
111-
cmake --build . --target cutlass_benchmarks
112+
cmake -G Ninja \
113+
-DCUTLASS_ENABLE_SYCL=ON \
114+
-DDPCPP_SYCL_TARGET=${{ matrix.sycl_target }} \
115+
-DCUTLASS_SYCL_RUNNING_CI=ON \
116+
-DCUTLASS_ENABLE_BENCHMARKS=ON
117+
cmake --build . --target cutlass_benchmarks -j 1

benchmarks/device/pvc/input_files/input_flash_attention_prefill.in

Lines changed: 0 additions & 168 deletions
This file was deleted.
Lines changed: 72 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,72 @@
1+
# FMHA Prefill BFloat16 benchmarks
2+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
3+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
4+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
5+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
6+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
7+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
8+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
9+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
10+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
11+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
12+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
13+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
14+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
15+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
16+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
17+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
18+
19+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
20+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
21+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
22+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
23+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
24+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
25+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
26+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
27+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
28+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
29+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
30+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
31+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
32+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
33+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
34+
FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
35+
36+
########################################################################################################################################################################################
37+
38+
# FMHA Prefill FP16 benchmarks
39+
40+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
41+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
42+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
43+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
44+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
45+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
46+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
47+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
48+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
49+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
50+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
51+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
52+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
53+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
54+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
55+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
56+
57+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
58+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128
59+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
60+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
61+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
62+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128
63+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
64+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128
65+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
66+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128
67+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
68+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128
69+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
70+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128
71+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
72+
FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128
Lines changed: 16 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,16 @@
1+
# FMHA Prefill BFloat16 benchmarks
2+
FMHAPrefillBF16BF16FP32FP32_RCR_h192_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
3+
FMHAPrefillBF16BF16FP32FP32_RCR_h192_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
4+
5+
FMHAPrefillBF16BF16FP32FP32_RCR_h192_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
6+
FMHAPrefillBF16BF16FP32FP32_RCR_h192_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
7+
8+
########################################################################################################################################################################################
9+
10+
# FMHA Prefill FP16 benchmarks
11+
12+
FMHAPrefillFP16FP16FP32FP32_RCR_h192_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
13+
FMHAPrefillFP16FP16FP32FP32_RCR_h192_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
14+
15+
FMHAPrefillFP16FP16FP32FP32_RCR_h192_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192
16+
FMHAPrefillFP16FP16FP32FP32_RCR_h192_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192

0 commit comments

Comments
 (0)