Add sweep scripts and updated results through v13

Wenhao He · claude · Wenhao He · commit f92b800fd95b · 2026-04-09T23:34:56.000-07:00
- train_mdlm_combined.py: full MDLM training script (PR openai#1053 infra + PR openai#1106 MDLM + our innovations) - sweep.sh/sweep2.sh: 12-experiment hyperparameter sweep (eps, arch, loss, seq_len) - results.tsv: updated with v10-v13 experiments, corrected descriptions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
diff --git a/results.tsv b/results.tsv
@@ -1,9 +1,13 @@
 commit	val_bpb	memory_gb	artifact_mb	status	description
-992f599	2.054	3.2	17.3	discard	MDLM v2: 11L 512d 2x cond128 lr=6e-4 (over 16MB)
-8e0b02b	1.955	10.8	19.5	discard	MDLM v3: 10L 512d 2x cond64 lr=1e-3 (over 16MB)
-d91e8db	1.924	8.8	15.9	discard	MDLM v4: 8L 512d 2x cond64 lr=1e-3 seq2048 batch32
-e1afee7	1.798	8.8	15.9	keep	MDLM v5: importance sampling + seq1024 + batch64
-d43b0c3	1.866	17.5	15.5	discard	MDLM v6: batch=128 hurt (fewer steps)
+992f599	2.054	3.2	17.3	discard	MDLM v2: 11L cond128 lr=6e-4 eps=1e-3 (over 16MB)
+8e0b02b	1.955	10.8	19.5	discard	MDLM v3: 10L cond64 lr=1e-3 eps=1e-3 (over 16MB)
+d91e8db	1.924	8.8	15.9	discard	MDLM v4: 8L cond64 seq2048 batch32 eps=1e-3
+e1afee7	1.798	8.8	15.9	discard	MDLM v5: importance sampling + seq1024 + batch64
+d43b0c3	1.866	17.5	15.5	discard	MDLM v6: batch=128 (fewer steps hurt)
 6c0e30f	1.799	8.8	15.9	discard	MDLM v7: warmdown=1000 (same as v5)
-0b8f7a2	1.772	8.8	16.7	discard	MDLM v8: lr=2e-3 (better BPB but artifact >16MB)
-9db68e4	1.788	8.8	15.7	keep	MDLM v9: noise_eps=0.1 (from PR#1106, best so far)
+0b8f7a2	1.772	8.8	16.7	discard	MDLM v8: lr=2e-3 (artifact >16MB)
+9db68e4	1.788	8.8	15.7	discard	MDLM v9: eps=0.1 (terminal KL too high)
+a18c419	1.771	8.8	15.8	discard	MDLM v10: eps=0.01 lr=1e-3
+f9d09c3	1.747	8.8	16.3	discard	MDLM v11: eps=0.01 lr=1.5e-3 (artifact >16MB)
+e485e87	1.754	8.8	16.0	discard	MDLM v12: eps=0.01 lr=1.2e-3 (artifact >16MB by 75KB)
+75a6064	1.766	8.8	15.96	keep	MDLM v13: eps=0.01 lr=1.1e-3 (best valid)
diff --git a/sweep.sh b/sweep.sh
@@ -0,0 +1,80 @@
+#!/bin/bash
+# Hyperparameter sweep for MDLM combined model
+# Runs 8 experiments in 2 batches of 4 (one per GPU)
+set -e
+cd /pscratch/sd/w/whe1/auto-diffusion
+source .venv/bin/activate
+
+# Common sweep settings: 500 steps, constant LR, fast eval
+COMMON="ITERATIONS=500 MAX_WALLCLOCK_SECONDS=0 WARMDOWN_ITERS=0 WARMUP_STEPS=5 \
+TRAIN_BATCH_TOKENS=32768 VAL_LOSS_EVERY=500 TRAIN_LOG_EVERY=100 \
+ELBO_EVAL_STEPS=32 MAX_EVAL_SEQS=64 NUM_LAYERS=11"
+
+echo "=== BATCH 1: 4 experiments in parallel ==="
+
+# Exp 1: Baseline
+CUDA_VISIBLE_DEVICES=0 env $COMMON \
+  NOISE_EPS=0.01 TRAIN_SEQ_LEN=1024 LOGIT_SOFTCAP=30 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp1_baseline.log 2>&1 &
+P1=$!
+
+# Exp 2: noise_eps=0.1
+CUDA_VISIBLE_DEVICES=1 env $COMMON \
+  NOISE_EPS=0.1 TRAIN_SEQ_LEN=1024 LOGIT_SOFTCAP=30 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp2_eps01.log 2>&1 &
+P2=$!
+
+# Exp 3: seq_len=2048
+CUDA_VISIBLE_DEVICES=2 env $COMMON \
+  NOISE_EPS=0.01 TRAIN_SEQ_LEN=2048 LOGIT_SOFTCAP=30 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp3_seq2048.log 2>&1 &
+P3=$!
+
+# Exp 4: no softcap
+CUDA_VISIBLE_DEVICES=3 env $COMMON \
+  NOISE_EPS=0.01 TRAIN_SEQ_LEN=1024 LOGIT_SOFTCAP=0 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp4_nocap.log 2>&1 &
+P4=$!
+
+echo "Waiting for batch 1..."
+wait $P1 $P2 $P3 $P4
+echo "Batch 1 done."
+
+echo "=== BATCH 2: 4 experiments in parallel ==="
+
+# Exp 5: cond_dim=128
+CUDA_VISIBLE_DEVICES=0 env $COMMON \
+  NOISE_EPS=0.01 TRAIN_SEQ_LEN=1024 LOGIT_SOFTCAP=30 COND_DIM=128 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp5_cond128.log 2>&1 &
+P5=$!
+
+# Exp 6: dsigma loss
+CUDA_VISIBLE_DEVICES=1 env $COMMON \
+  NOISE_EPS=0.01 TRAIN_SEQ_LEN=1024 LOGIT_SOFTCAP=30 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=1 \
+  python train_mdlm_combined.py > sweep_exp6_dsigma.log 2>&1 &
+P6=$!
+
+# Exp 7: combo (eps=0.1 + seq=2048 + nocap)
+CUDA_VISIBLE_DEVICES=2 env $COMMON \
+  NOISE_EPS=0.1 TRAIN_SEQ_LEN=2048 LOGIT_SOFTCAP=0 COND_DIM=64 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp7_combo.log 2>&1 &
+P7=$!
+
+# Exp 8: combo + cond=128
+CUDA_VISIBLE_DEVICES=3 env $COMMON \
+  NOISE_EPS=0.1 TRAIN_SEQ_LEN=2048 LOGIT_SOFTCAP=0 COND_DIM=128 MLP_MULT=2 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp8_combo_cond128.log 2>&1 &
+P8=$!
+
+echo "Waiting for batch 2..."
+wait $P5 $P6 $P7 $P8
+echo "Batch 2 done."
+
+echo ""
+echo "=== SWEEP RESULTS ==="
+for f in sweep_exp*.log; do
+  name=$(echo $f | sed 's/sweep_//;s/.log//')
+  bpb=$(grep "val_bpb" $f | tail -1 | grep -oP 'val_bpb:\K[0-9.]+')
+  loss=$(grep "val_loss" $f | tail -1 | grep -oP 'val_loss:\K[0-9.]+')
+  echo "$name: val_bpb=$bpb val_loss=$loss"
+done
diff --git a/sweep2.sh b/sweep2.sh
@@ -0,0 +1,48 @@
+#!/bin/bash
+# Follow-up sweep: eps=0.1 confirmed best, now test architecture variations
+set -e
+cd /pscratch/sd/w/whe1/auto-diffusion
+source .venv/bin/activate
+
+COMMON="ITERATIONS=500 MAX_WALLCLOCK_SECONDS=0 WARMDOWN_ITERS=0 WARMUP_STEPS=5 \
+TRAIN_BATCH_TOKENS=32768 VAL_LOSS_EVERY=500 TRAIN_LOG_EVERY=100 \
+ELBO_EVAL_STEPS=32 MAX_EVAL_SEQS=64 NOISE_EPS=0.1 LOGIT_SOFTCAP=30 COND_DIM=64"
+
+echo "=== SWEEP 2: 4 experiments in parallel (all with eps=0.1) ==="
+
+# Exp 9: eps=0.1 + seq=2048
+CUDA_VISIBLE_DEVICES=0 env $COMMON \
+  NUM_LAYERS=11 MLP_MULT=2 TRAIN_SEQ_LEN=2048 TIE_EMBEDDINGS=1 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp9_eps01_seq2048.log 2>&1 &
+P1=$!
+
+# Exp 10: eps=0.1 + no weight tying
+CUDA_VISIBLE_DEVICES=1 env $COMMON \
+  NUM_LAYERS=11 MLP_MULT=2 TRAIN_SEQ_LEN=1024 TIE_EMBEDDINGS=0 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp10_eps01_notie.log 2>&1 &
+P2=$!
+
+# Exp 11: eps=0.1 + 9L + 3x MLP (wider model, fewer layers)
+CUDA_VISIBLE_DEVICES=2 env $COMMON \
+  NUM_LAYERS=9 MLP_MULT=3 TRAIN_SEQ_LEN=1024 TIE_EMBEDDINGS=1 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp11_eps01_9L_3x.log 2>&1 &
+P3=$!
+
+# Exp 12: eps=0.1 + 9L + 3x MLP + seq=2048
+CUDA_VISIBLE_DEVICES=3 env $COMMON \
+  NUM_LAYERS=9 MLP_MULT=3 TRAIN_SEQ_LEN=2048 TIE_EMBEDDINGS=1 USE_DSIGMA_LOSS=0 \
+  python train_mdlm_combined.py > sweep_exp12_eps01_9L_3x_seq2048.log 2>&1 &
+P4=$!
+
+echo "Waiting..."
+wait $P1 $P2 $P3 $P4
+
+echo ""
+echo "=== SWEEP 2 RESULTS ==="
+for f in sweep_exp{9,10,11,12}*.log; do
+  name=$(echo $f | sed 's/sweep_//;s/.log//')
+  bpb=$(grep "val_bpb" $f | tail -1 | grep -oP 'val_bpb:\K[0-9.]+')
+  params=$(grep -oP '[0-9,]+ params' $f | head -1)
+  artifact=$(grep "artifact:" $f | grep -oP 'artifact:\K[0-9]+ bytes')
+  echo "$name: val_bpb=$bpb params=$params artifact=$artifact"
+done
diff --git a/train_mdlm_combined.py b/train_mdlm_combined.py