|
| 1 | +# FMHA Prefill BFloat16 benchmarks |
| 2 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 3 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 4 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 5 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 6 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 7 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 8 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 9 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 10 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 11 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 12 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 13 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 14 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 15 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 16 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 17 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 18 | + |
| 19 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 20 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 21 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 22 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 23 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 24 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 25 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 26 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 27 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 28 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 29 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 30 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 31 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 32 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 33 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 34 | +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 35 | + |
| 36 | +######################################################################################################################################################################################## |
| 37 | + |
| 38 | +# FMHA Prefill FP16 benchmarks |
| 39 | + |
| 40 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 41 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 42 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 43 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 44 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 45 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 46 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 47 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 48 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 49 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 50 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 51 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 52 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 53 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 54 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 55 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 56 | + |
| 57 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 58 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 |
| 59 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 60 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 61 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 62 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 |
| 63 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 64 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 |
| 65 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 66 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 |
| 67 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 68 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 |
| 69 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 70 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 |
| 71 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
| 72 | +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 |
0 commit comments