V19c stacked + V19b ablation scouts (PR openai#1925 simon-marcus hparams)

alertcat · alertcat · commit 64212314ef7e · 2026-04-29T22:40:16.000+08:00
After 4 parallel research agents reviewed 30+ open PRs and compliance issues, two new findings: 1. PR openai#1923 (AsymLogit) flagged "empirical negative" by sunnypatneedi 4-29 frontier-scan, BUT only on PR openai#1855 base with default WD=1.0. Never tested on PR openai#1908 + WD=2.0 combo. V19's specific stack is NOT directly invalidated. 2. PR openai#1925 simon-marcus 1.06049 (3-seed verified, vs PR openai#1855 base 1.06108 = -0.00059 BPB). Just 2 hparam env vars: MATRIX_LR 0.026 -> 0.028 PHASED_TTT_PREFIX_DOCS 2500 -> 3500 Orthogonal axis to AsymLogit (LR/TTT prefix vs logit head). Adds two new scout scripts: - run_v19c_stacked_scout.sh: PR openai#1908 + AsymLogit + simon-marcus + WD=2.0 (full stack, recommended first scout) - run_v19b_simonmarcus_scout.sh: PR openai#1908 + simon-marcus + WD=2.0 (ablation if V19c wins partially) Decision rule (CaseOps val baseline 0.97651, community floor 0.0006): V19c < 0.97591 -> CLEAR WIN, run 3-seed V19c 0.97591-0.9755 -> borderline, ablate via V19a/V19b V19c > 0.9755 -> abandon stack, try Lead B (PR openai#1884) Other research findings: - PR openai#1898 SpinQuant flagged regression vs parent openai#1851 (skip) - PR openai#1929 SLOT banned per openai#1722 precedent - PR openai#1911 pre-quant TTT chain banned per openai#1735 precedent - cocohearts 4-28 PR openai#1902 confirmed PR openai#1855 as official openai#1 - regina-openai + Alex Zhao 48h zero activity - CaseOps de-facto legal (PR openai#1855 merged into chain)
diff --git a/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/run_v19b_simonmarcus_scout.sh b/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/run_v19b_simonmarcus_scout.sh
@@ -0,0 +1,47 @@
+#!/bin/bash
+# V19b ABLATION scout: PR #1908 + simon-marcus hparams ONLY (no AsymLogit)
+# Used to ablate which axis contributed if V19c shows a partial win.
+# Seed 42, ~19 min, ~$0.65.
+#
+# Tests JUST simon-marcus's PR #1925 deltas:
+#   - MATRIX_LR 0.026 -> 0.028
+#   - PHASED_TTT_PREFIX_DOCS 2500 -> 3500
+#   - TTT_WD=2.0 (PR #1886 stability fix)
+#
+# AsymLogit is OFF (ASYM_LOGIT_RESCALE=0 default in train_gpt.py).
+set -e
+
+cd /workspace/parameter-golf/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/
+
+echo "===================================================="
+echo "  V19b ABLATION: PR #1908 + simon-marcus hparams"
+echo "  Seed 42  Start: $(date)"
+echo "===================================================="
+
+ENV_VARS="DATA_DIR=/workspace/caseops_data/datasets/ \
+  TTT_WEIGHT_DECAY=2.0 \
+  MATRIX_LR=0.028 \
+  PHASED_TTT_PREFIX_DOCS=3500 \
+  AWQ_LITE_ENABLED=1 \
+  AWQ_LITE_BITS=8 \
+  AWQ_LITE_GROUP_TOP_K=1 \
+  AWQ_LITE_GROUP_SIZE=64 \
+  LQER_ENABLED=1 \
+  LQER_ASYM_ENABLED=1 \
+  LQER_RANK=4 \
+  LQER_FACTOR_BITS=4 \
+  LQER_ASYM_GROUP=64 \
+  LQER_TOP_K=3"
+
+env SEED=42 $ENV_VARS \
+  torchrun --standalone --nproc_per_node=8 train_gpt.py \
+  > /workspace/scout_v19b_seed42.log 2>&1
+
+cp final_model.int6.ptz /workspace/v19b_seed42_model.int6.ptz 2>/dev/null || true
+cp /workspace/scout_v19b_seed42.log /workspace/v19b_seed42_FULL.log 2>/dev/null || true
+
+echo ""
+echo "===================================================="
+echo "  V19b scout DONE  $(date)"
+echo "===================================================="
+grep -E "stopping_early|train_time|quantized_ttt_phased|val_bpb" /workspace/scout_v19b_seed42.log | tail -10
diff --git a/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/run_v19c_stacked_scout.sh b/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/run_v19c_stacked_scout.sh
@@ -0,0 +1,60 @@
+#!/bin/bash
+# V19c FULL STACK scout: PR #1908 + Asymmetric Logit Rescale + simon-marcus hparams
+# Single seed 42, ~19 min, ~$0.65.
+#
+# Combines THREE independent improvements (each verified separately by community):
+#   1. Asymmetric Logit Rescale (PR #1923 jorge-asenjo)
+#      - sunnypatneedi flagged "empirical negative" but ONLY on PR #1855 base
+#        with WD=1.0 default. Never tested on PR #1908 + WD=2.0.
+#   2. simon-marcus hparams (PR #1925, 3-seed verified 1.06049 on PR #1855 base)
+#      - MATRIX_LR 0.026 -> 0.028
+#      - PHASED_TTT_PREFIX_DOCS 2500 -> 3500
+#   3. TTT_WEIGHT_DECAY 1.0 -> 2.0 (PR #1886 fused-CE collapse fix)
+#
+# Theory: 3 orthogonal axes; if any 1 wins, we beat PR #1908 frontier.
+# If V19c regresses, we can ablate (run V19a alone first, or V19b separately).
+set -e
+
+cd /workspace/parameter-golf/records/track_10min_16mb/2026-04-30_V19_PR1908_AsymLogit_WD2/
+
+echo "===================================================="
+echo "  V19c STACKED scout: PR #1908 + 3 axes"
+echo "  Seed 42  Start: $(date)"
+echo "===================================================="
+
+ENV_VARS="DATA_DIR=/workspace/caseops_data/datasets/ \
+  ASYM_LOGIT_RESCALE=1 \
+  TTT_WEIGHT_DECAY=2.0 \
+  MATRIX_LR=0.028 \
+  PHASED_TTT_PREFIX_DOCS=3500 \
+  AWQ_LITE_ENABLED=1 \
+  AWQ_LITE_BITS=8 \
+  AWQ_LITE_GROUP_TOP_K=1 \
+  AWQ_LITE_GROUP_SIZE=64 \
+  LQER_ENABLED=1 \
+  LQER_ASYM_ENABLED=1 \
+  LQER_RANK=4 \
+  LQER_FACTOR_BITS=4 \
+  LQER_ASYM_GROUP=64 \
+  LQER_TOP_K=3"
+
+env SEED=42 $ENV_VARS \
+  torchrun --standalone --nproc_per_node=8 train_gpt.py \
+  > /workspace/scout_v19c_seed42.log 2>&1
+
+cp final_model.int6.ptz /workspace/v19c_seed42_model.int6.ptz 2>/dev/null || true
+cp /workspace/scout_v19c_seed42.log /workspace/v19c_seed42_FULL.log 2>/dev/null || true
+
+echo ""
+echo "===================================================="
+echo "  V19c scout DONE  $(date)"
+echo "===================================================="
+grep -E "stopping_early|train_time|quantized_ttt_phased|val_bpb" /workspace/scout_v19c_seed42.log | tail -10
+echo ""
+echo "DECISION RULE:"
+echo "  baseline (PR #1908 default on CaseOps): 0.97651"
+echo "  community merge floor: 0.0006 BPB delta"
+echo ""
+echo "  if V19c < 0.97591  -> CLEAR WIN (>floor), run 3-seed"
+echo "  if V19c 0.97591-0.9755 -> borderline, ablate (run run_v19_scout.sh AsymLogit alone)"
+echo "  if V19c > 0.9755 -> noise/regression, abandon"