diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/README.md b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/README.md
new file mode 100644
index 0000000000..b3d47634ac
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/README.md
@@ -0,0 +1,202 @@
+# Record: SP8192 + BigramHash d=32 + Path A v3 Aggressive Passthrough Quantization — val_bpb 1.07882 (3-seed mean)
+
+**val_bpb = 1.07882** (3-seed mean, std 0.000143) | **mean 15,993,825 B (15.99 MB)** | 8× H100 80GB SXM | Legal Score-First TTT
+
+Beats the merged SOTA ([2026-04-09 SP8192 record by @bigbag](https://github.com/openai/parameter-golf/blob/main/records/track_10min_16mb/2026-04-09_SP8192_3LayerRecur_ParResid_QK525_LegalTTT/README.md), 3-seed mean 1.08100) by **−0.00218 bpb / −0.00564 nats per token** on a 3-seed mean, clearing the 0.005-nat record threshold with one-sided **z = −3.00, p = 0.00136** (p < 0.01 required).
+
+## 3-Seed Results (8× H100 80GB SXM, PyTorch 2.9.1+cu128, Legal Score-First TTT)
+
+### Core (TTT) table
+
+| Seed | Steps | Pre-TTT sliding bpb | **Post-TTT bpb** | TTT gain | TTT time | Artifact (B) |
+|---:|---:|---:|---:|---:|---:|---:|
+| 42   | 4393 | 1.08015 | **1.07887** | −0.00128 | 336.1 s | 15,991,203 |
+| 314  | 4393 | 1.08024 | **1.07893** | −0.00131 | 335.5 s | 15,994,170 |
+| 999  | 4403 | 1.07998 | **1.07866** | −0.00132 | 333.6 s | 15,996,103 |
+| **mean** | | **1.08012** | **1.07882** | **−0.00130** | **335.1 s** | **15,993,825** |
+| **std**  | |         | **0.000143** |          |          |            |
+
+### Diagnostics
+
+| Seed | Post-EMA bpb | Quant roundtrip bpb | Sliding bpb | TTT val_loss (nats) | Code bytes | Total submission (B) | Train ms | Eval ms (q+sl+ttt) |
+|---:|---:|---:|---:|---:|---:|---:|---:|---:|
+| 42   | 1.08584 | 1.09678 | 1.08015 | 2.78662485 | 18,097 | 15,991,203 | 588,110 | 480,408 |
+| 314  | 1.08580 | 1.09679 | 1.08024 | 2.78678778 | 18,097 | 15,994,170 | 588,031 | 479,495 |
+| 999  | 1.08561 | 1.09662 | 1.07998 | 2.78608265 | 18,097 | 15,996,103 | 588,029 | 477,724 |
+| **mean** | **1.08575** | **1.09673** | **1.08012** | **2.78650** | — | **15,993,825** | **588,057** | **479,209** |
+
+## Key Innovation: Path A v3 Aggressive Passthrough Quantization
+
+Two complementary changes on top of the [2026-04-09 SP8192 stack](../2026-04-09_SP8192_3LayerRecur_ParResid_QK525_LegalTTT/README.md):
+
+### 1. `BIGRAM_DIM = 32`
+
+BigramHashEmbedding dimension reduced from the common d=48/64 to **d=32**. Smaller bigram projection regularizes the hashed n-gram signal and frees ~262 KB of raw bigram parameters (compressed ~3 KB, modest on size but also lets `bigram.proj` be even smaller for the Path A v3 int8 treatment). Pre-quant post-EMA is preserved at ~1.0858, within noise of the d=48 baseline.
+
+### 2. Path A v3 Aggressive Passthrough Quantization (primary contribution)
+
+The canonical [PR #1394](https://github.com/openai/parameter-golf/pull/1394) / bigbag stack leaves the following tensors as **fp16 passthrough** (1 tensor per transformer block layer plus a few scalars), consuming ~40 KB in the compressed artifact:
+
+- **Control tensors (per-tensor int8)**: `attn_scale`, `mlp_scale`, `resid_mix`, `skip_gates`, `skip_weights`. Each is a small 1-D array with a narrow dynamic range. Quantized to int8 with a single fp32 per-tensor scale — reconstruction error dominated by scale quantization is negligible (< 1e-4 relative on all tensors).
+- **Small 2-D matrices (per-row int8)**: `bigram.proj` (512 × 32 = 16 K params), `attn_gate_proj`, `smear_gate.weight`. These are dense but small and excluded from Hessian-aware GPTQ by the `numel() <= 65536` threshold. Quantized to int8 with per-row fp16 scales.
+- **`gptq_mixed_quantize`** and **`dequantize_mixed`** in the submitted training script are modified to dispatch these categories before falling back to fp16 passthrough. Everything else (int6 attn/MLP matrices, int8 tok_emb, int6 bigram.embed) is unchanged.
+- **LZMA self-extracting wrapper** over a python-minified source: 53,508 raw → 52,775 minified → 14,384 LZMA → **18,097 bytes** wrapped. (Same technique as @bigbag's record.)
+
+**Quantization quality cost:** measured to 5 d.p., the quantized roundtrip bpb is **unchanged** between baseline and Path A v3 (1.0968 in both). The Path A v3 modifications are effectively zero-cost in BPB while saving ~40 KB on the artifact.
+
+**Net size effect:** total submission averages 15,993,825 B across 3 seeds (6,175 B under the 16,000,000 cap). Prior SP8192 runs without Path A v3 at the same `EMBED_BITS=8` configuration sit at ~16,065 KB (~65 KB over). Path A v3 is what makes int8 token-embeddings legal for this architecture.
+
+## Architecture
+
+11L × 512d × 8H / 4KV, MLP 4×, LeakyReLU(0.5)² activation, Partial RoPE (16 / 64 dims), tied token embeddings, logit softcap = 30. Skip gates (sigmoid-gated U-Net connections). Depth recurrence: encoder `[0,1,2,3,4,5,3,4]`, decoder `[5,3,4,5,6,7,8,9,10]` (loops layers 3–5, activated at step ~1950 = 45% training). Parallel residuals from layer 7. **BigramHashEmbedding with 16,384 buckets × d=32**. AttnOutputGate (width 12, source=proj). SmearGate (width 12). SentencePiece-BPE 8192.
+
+## Training
+
+MuonEq-R (row-normalized Muon, Newton-Schulz 5 steps) for matrices; AdamW for embeddings/scalars. Warmdown 72% of training; EMA decay 0.9965. QK-Gain init 5.0 (learnable per-head). Weight decay 0.085 / 0.095 (embed / matrix). ~4393–4403 steps in 588 s on 8× H100 SXM (`MAX_WALLCLOCK_SECONDS=600` minus 12 s GPTQ reserve).
+
+## Quantization
+
+Full-Hessian GPTQ with SDClip (`clip = k × std(row)`):
+
+- **Matrices** (attn/MLP): int6, `matrix_clip_sigmas = 12.85` (@clarkkev PR #1394)
+- **Token embeddings**: int8, `embed_clip_sigmas = 20.0`
+- **bigram.embed**: int6 per-row simple scale
+- **Path A v3 additions** (this PR): per-tensor int8 for control scalars, per-row int8 for small 2-D matrices (see Key Innovation section)
+
+Byte-shuffle + Brotli-11 on the quantized state-dict blob. Self-extracting LZMA wrapper on the minified source.
+
+## Test-Time Training (Score-First, Legal)
+
+Per [Issue #1017](https://github.com/openai/parameter-golf/issues/1017) / [PR #549](https://github.com/openai/parameter-golf/pull/549) / [PR #461](https://github.com/openai/parameter-golf/pull/461) precedent:
+
+```python
+for chunk_idx, chunk_windows in enumerate(chunks):
+    # Phase 1: SCORE (under no_grad, no parameter update)
+    with torch.inference_mode():
+        nll = model.forward_logits(batch).cross_entropy(targets)
+    loss_sum += nll.sum()
+
+    # Phase 2: TRAIN (only on the chunk just scored)
+    if not is_last_chunk:
+        for _ in range(ttt_epochs):   # 3 epochs
+            for x, y in chunk_seqs:
+                loss = model(x, y)
+                loss.backward()
+                optimizer.step()      # SGD, lr=0.005, momentum=0.9
+```
+
+1,238 chunks × 32,768 tokens × 3 epochs. Strict score-before-update ordering; no token is ever trained on before it is scored. Mean TTT time 335 s per seed (well within 600 s eval budget).
+
+## Rule Compliance
+
+Per [repo README](../../../README.md) and [Issue #1017](https://github.com/openai/parameter-golf/issues/1017):
+
+- **Condition 1 — Causality** ✅ Strictly causal forward pass. Sliding-window eval never references future tokens for current-position scoring.
+- **Condition 2 — Normalized distribution** ✅ Standard softmax over full 8,192 vocab. No n-gram cache, no logit biasing, no multi-pass rescoring.
+- **Condition 3 — Score before update** ✅ Every TTT chunk is scored under `inference_mode()` before any parameter update. Gradient updates only use already-scored tokens.
+- **Condition 4 — Single pass** ✅ Each val token is scored exactly once. No rescoring, no cache lookups.
+
+Additional:
+- **No SLOT** (standard or causal) — no eval-time delta optimization
+- **No pre-quant TTT** on val data — model is quantized once; TTT adapts the quantized model at eval time only
+- **No ETLB** (eval-time logit bias)
+- **No n-gram cache** or tilt
+- **Seed choice conventional** — matches @bigbag 2026-04-09 exactly (42, 314, 999); no seed brute-forcing
+- **Artifact < 16,000,000 bytes** on all 3 seeds (margins: 8,797 / 5,830 / 3,897 B)
+- **Training ≤ 600 s** on all 3 seeds (588,029–588,110 ms actual)
+- **Eval ≤ 600 s** on all 3 seeds (quantized + sliding + TTT = 477,724–480,408 ms)
+
+## Statistical Evidence
+
+Three independent seeds on a canonical 128-shard sp8192 tokenization of the `willdepueoai/parameter-golf` fineweb export:
+
+```
+Seed 42:  val_bpb = 1.07886574, val_loss = 2.78662485 nats/token, total_bytes = 15,991,203, train_time_ms = 588,110
+Seed 314: val_bpb = 1.07892882, val_loss = 2.78678778 nats/token, total_bytes = 15,994,170, train_time_ms = 588,031
+Seed 999: val_bpb = 1.07865582, val_loss = 2.78608265 nats/token, total_bytes = 15,996,103, train_time_ms = 588,029
+
+Mean bpb      = 1.07881679
+Std bpb       = 0.000143 (sample, n=3, n-1=2)
+SEM bpb       = 0.0000826
+Mean val_loss = 2.78649843 nats/token
+bpb / val_loss ratio = 0.387159 (per-pod byte-count mapping)
+
+Merged SOTA (bigbag 2026-04-09 3-seed mean) = 1.08100 bpb
+Observed delta                              = 0.00218 bpb  =  0.00564 nats/token  (> 0.005-nat threshold)
+Threshold in bpb at our ratio               = 0.001936 bpb
+Mean bpb required to clear threshold        = 1.079064
+Our mean bpb                                = 1.078817
+Margin past threshold                       = 0.000247 bpb  =  0.000637 nats/token
+
+One-sided z (lower tail)                    = (1.078817 − 1.079064) / 0.0000826 = −2.998
+One-sided p-value                           = 0.00136
+Required: p < 0.01                          →  CLEARED
+```
+
+## Environment
+
+```
+torch                2.9.1+cu128
+CUDA                 12.8
+NVIDIA driver        575.57.08
+brotli               1.2.0
+sentencepiece        0.2.1
+python-minifier      (latest)
+NVIDIA H100 80 GB HBM3 SXM × 8 with NVLink (18 links × 26.562 GB/s)
+NCCL all-reduce 256 MB: ~424 GB/s bus bandwidth (near-peak NVLink4)
+```
+
+## Reproduction
+
+```bash
+# 1. Install deps
+pip install --break-system-packages brotli python-minifier sentencepiece huggingface_hub
+
+# 2. Clone competition repo + generate canonical sp8192 data
+git clone https://github.com/openai/parameter-golf.git repo
+cd repo
+
+cat > data/tokenizer_specs_sp8192.json <<'EOF'
+{"tokenizers":[{"name":"sp_bpe_8192","dataset_suffix":"sp8192","vocab_size":8192}]}
+EOF
+
+python3 data/download_hf_docs_and_tokenize.py \
+    --repo-id willdepueoai/parameter-golf \
+    --remote-root datasets \
+    --output-root ./data \
+    --tokenizer-config data/tokenizer_specs_sp8192.json \
+    --skip-byte \
+    --chunk-tokens 100000000 \
+    --tokenizer-train-docs 1000000
+
+# 3. Run 3 seeds
+for SEED in 42 314 999; do
+  SEED=$SEED DATA_DIR=./data/ RUN_ID=seed${SEED} \
+    ITERATIONS=20000 MAX_WALLCLOCK_SECONDS=600 \
+    TTT_ENABLED=1 SLIDING_WINDOW_ENABLED=1 VAL_LOSS_EVERY=4000 \
+    BIGRAM_VOCAB_SIZE=16384 BIGRAM_DIM=32 \
+    GATE_ATTN_OUT=1 GATE_WIDTH=12 GATE_ATTN_SRC=proj \
+    SMEAR_GATE=1 SMEAR_GATE_WIDTH=12 \
+    EMBED_BITS=8 EMBED_CLIP_SIGMAS=20.0 COMPRESSOR=brotli \
+    torchrun --standalone --nproc_per_node=8 train_gpt.py \
+      2>&1 | tee logs/train_seed${SEED}.log
+done
+```
+
+The provided `train_gpt.py` is an 18,097-byte LZMA self-extracting wrapper. The equivalent full source (53,508 B) is `train_gpt_stacked_v2_fixed.py` for review.
+
+## Credits
+
+- **@clarkkev** — PR #1394: SP8192 base stack + GPTQ SDClip + int6 matrices / int8 embeddings + MuonEq-R + SP8192 tokenizer recipe.
+- **@bigbag** — 2026-04-09 SP8192 record: 3-layer depth recurrence + parallel residuals + QK-Gain 5.25 + legal TTT on the SP8192 stack. (Direct ancestor of this submission.)
+- **@dexhunter** — PR #1331, #1437: 3-layer depth recurrence; PR #1413: legal TTT on SP8192.
+- **@Robby955** — PR #1412: parallel residuals on SP8192. **@msisovic** — PR #1204: parallel residuals concept.
+- **@Christopher-Lee-McClendon** — PR #461: legal score-first TTT framework. **@abaybektursun** — PR #549: merged precedent for legal TTT.
+- **@MarioPaerle** — PR #1667: AttnOutputGate used in this architecture.
+
+## Our contribution
+
+Two modifications on top of the @bigbag / @clarkkev SP8192 lineage:
+
+1. **Path A v3 aggressive passthrough quantization** in `gptq_mixed_quantize` and `dequantize_mixed` — per-tensor int8 for five control-tensor families (`attn_scale`, `mlp_scale`, `resid_mix`, `skip_gates`, `skip_weights`) and per-row int8 for three small 2-D matrices (`bigram.proj`, `attn_gate_proj`, `smear_gate.weight`). Net effect: the full bigbag-style int8 token-embedding + int6 matrix recipe now fits ≤ 16 MB with ~6 KB margin, preserving the full TTT BPB of the baseline.
+2. **BigramHashEmbedding `d = 32`** (vs common d=48 / d=64 in the lineage) — modest regularization + complementary size savings that free a few KB for Path A v3 to work with.
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/submission.json b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/submission.json
new file mode 100644
index 0000000000..505811e680
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/submission.json
@@ -0,0 +1,100 @@
+{
+  "author": "himanshudongre",
+  "github_id": "himanshudongre",
+  "name": "SP8192 + BigramHash d=32 + AttnOutputGate + SmearGate + Path A v3 Aggressive Passthrough Quantization + Legal Score-First TTT",
+  "date": "2026-04-18",
+  "track": "10min_16mb",
+  "val_bpb": 1.07882,
+  "val_bpb_std": 0.000143,
+  "seeds": [
+    42,
+    314,
+    999
+  ],
+  "seed_results": {
+    "42": {
+      "val_bpb": 1.07886574,
+      "val_loss": 2.78662485,
+      "sliding_val_bpb": 1.08014601,
+      "quantized_val_bpb": 1.09678081,
+      "pre_quant_post_ema_val_bpb": 1.08584188,
+      "artifact_bytes": 15991203,
+      "train_time_ms": 588110,
+      "ttt_time_ms": 336109,
+      "sliding_time_ms": 120470,
+      "quantized_time_ms": 23829,
+      "eval_time_ms_total": 480408
+    },
+    "314": {
+      "val_bpb": 1.07892882,
+      "val_loss": 2.78678778,
+      "sliding_val_bpb": 1.08023616,
+      "quantized_val_bpb": 1.09679203,
+      "pre_quant_post_ema_val_bpb": 1.08579894,
+      "artifact_bytes": 15994170,
+      "train_time_ms": 588031,
+      "ttt_time_ms": 335468,
+      "sliding_time_ms": 119913,
+      "quantized_time_ms": 24114,
+      "eval_time_ms_total": 479495
+    },
+    "999": {
+      "val_bpb": 1.07865582,
+      "val_loss": 2.78608265,
+      "sliding_val_bpb": 1.07998003,
+      "quantized_val_bpb": 1.09662297,
+      "pre_quant_post_ema_val_bpb": 1.08561033,
+      "artifact_bytes": 15996103,
+      "train_time_ms": 588029,
+      "ttt_time_ms": 333575,
+      "sliding_time_ms": 120053,
+      "quantized_time_ms": 24096,
+      "eval_time_ms_total": 477724
+    }
+  },
+  "mean_bpb": 1.07881679,
+  "std_bpb": 0.00014293,
+  "sliding_bpb_mean": 1.08012073,
+  "quantized_bpb_mean": 1.09673194,
+  "pre_quant_post_ema_bpb_mean": 1.08575038,
+  "mean_val_loss_nats": 2.78649843,
+  "vs_merged_sota": {
+    "merged_sota_bpb": 1.081,
+    "delta_bpb": 0.002183,
+    "delta_nats_per_token": 0.005639,
+    "threshold_nats": 0.005,
+    "threshold_bpb_at_our_ratio": 0.001936,
+    "mean_bpb_required_to_clear_threshold": 1.079064,
+    "one_sided_z_statistic": -2.9982,
+    "one_sided_p_value": 0.001358,
+    "cleared_threshold_at_p_lt_0_01": true,
+    "merged_sota_source": "records/track_10min_16mb/2026-04-09_SP8192_3LayerRecur_ParResid_QK525_LegalTTT/ (by @bigbag)"
+  },
+  "tokenizer": "SentencePiece BPE 8192 (trained from 1M canonical fineweb docs)",
+  "architecture": "11L/512d/8H/4KV, MLP 4x, LeakyReLU(0.5)^2, Partial RoPE 16d, Depth-recurrence (loop layers 3-5 from frac=0.35), Parallel residuals (layer 7+), QK-Gain 5.0, Skip gates, AttnOutputGate (width 12), SmearGate (width 12), BigramHashEmbedding (16384 buckets x d=32), tied embeddings, logit softcap 30",
+  "platform": "RunPod 8xH100 80GB SXM, PyTorch 2.9.1+cu128, CUDA 12.8",
+  "hardware": "8xH100 80GB SXM",
+  "pytorch_version": "2.9.1+cu128",
+  "technique_summary": "SP8192 + BigramHash d=32 + AttnOutputGate + SmearGate + Depth recurrence (L3-5) + Parallel residuals (L7+) + QK-Gain 5.0 + MuonEq-R + SDClip GPTQ + Path A v3 aggressive int8 passthrough (control tensors + small matrices) + Legal Score-First TTT + LZMA code pack + Brotli",
+  "compliance": {
+    "artifact_under_16mb": true,
+    "training_under_600s": true,
+    "eval_under_600s": true,
+    "no_slot": true,
+    "no_pre_quant_ttt": true,
+    "no_etlb": true,
+    "no_ngram_cache": true,
+    "score_first_ttt": true,
+    "three_seeds": true
+  },
+  "attribution": {
+    "sp8192_gptq_embeds_sdclip_muoneqr_depth_recur": "@clarkkev (PR #1394)",
+    "three_layer_depth_recurrence": "@dexhunter (PR #1331, #1437)",
+    "parallel_residuals": "@Robby955 (PR #1412), @msisovic (PR #1204)",
+    "qk_gain": "@clarkkev (PR #1394 default 4.0; raised to 5.0 as a tune on top)",
+    "legal_ttt_framework": "@Christopher-Lee-McClendon (PR #461), @abaybektursun (PR #549), @dexhunter (PR #1413)",
+    "attn_output_gate": "@MarioPaerle (PR #1667)",
+    "bigbag_base_sp8192_record": "@bigbag, records/track_10min_16mb/2026-04-09_SP8192_3LayerRecur_ParResid_QK525_LegalTTT/ (3-seed mean 1.08100)"
+  },
+  "our_contribution": "Two changes on top of @bigbag 2026-04-09's SP8192 stack: (1) BigramHashEmbedding dimension d=32 (vs 48); (2) Path A v3 aggressive passthrough quantization (int8 per-tensor for control scalars + int8 per-row for small 2-D matrices that were fp16 passthrough) + LZMA self-extracting code wrapper. Net artifact savings ~40 KB + 35 KB, enabling int8 token embeddings to fit under 16 MB with ~6 KB margin while preserving the full BPB of the baseline recipe. 3-seed mean 1.07882 (std 0.000143) clears the 0.005-nat threshold at p=0.0018."
+}
\ No newline at end of file
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt.py b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt.py
new file mode 100644
index 0000000000..b9b22573e4
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt.py
@@ -0,0 +1,2 @@
+import lzma as L,base64 as B
+exec(L.decompress(B.b85decode(";La>KC|v+An1iBmm2Lj?#GMy3nc5FDC5OrW_PApDM>V>ui&z$DDoYt&HOr-YcRavx&eXRn?afQA6n6r<BX<v1rtKuHG!lt%8``=xU9FZm;bSYDGVGC%Q$-~7^W|1CDzM>443e~?FX!ZzOMj?myitmTW#fAmj~o95;!EoIpb)B3z)?SDn(z(jZNK2Lv%Kg3CRay6djTaM(n!-Kln4?8Saqqe`k1D+0tTiZSpwGH`AF=~;-A%RiNINklX#eRh0i^&0g_vdkRAe11!m79HNIZl3>gS*uf2?0m#$sX+#MNls2y9uN?PO%kZpic_XMV&=Sswx+ehbpKr@4iJa1^b_5q~b-ylubG)v=uk7&j7xneAQLgaALOynbb_V|VwNU{7xJf>?j(130APvN?uNX!_@gh&Gf%lSLQVhBtDC#Xe+WeCB-mxYhdUpXe?)(j-jPk=Vc5W|Fm1&vH2kp67Av^gPmX(fWE-hkgLLeQHvT#HV?Razu;F~6nMnA?03dH*@MV&&+4?hG3fySZ|wEXw}5O}DW5XXB>gRth3On0<WRV3Ha4O*y2PQYZ61NG3BovrL;PiMhrC^$NKraPaO3uV{z!Ffm0<Dj<QBGlcsY;uu5895UPqVzl!&mn2ntq@UR3;jCV4rL>nj-$94oUerULMS`su-+MXUU;qJxcLAvM7J5}i;7s{>N$unEeRfeOiCfi~>3TpN?HlqzYmfe7h^c^X++|8ZU>0R#VFv#iW~)6pyQ!1s3n?%|=;t?9nGMverb1O?N!dr|B*Yb&THp=yUL7Bg@28^)A|Hmovr%SmZ9f2fGA7whvTyh|QEDF&2<6}{{m+H51_`T`r+7p<veK)XZqIG~!VUVH<RwB*8fAccs(B?8vXk2bP!w%Ee<5t@o??l&0Hqmfx6(71Y=|FUCJFIgS)Ta(QP;ZbgR~Y9^y~4?Mib2lz6C?B100^1FuEY`=QoO&bKTwNwcYjqy!rKkwfMqO(=`Av_9=ojnmKex00t8;iKplKis5sO0v~ph&}?RX=npem0qQdCB3Er?$fBC;Cf^sx2c5;;xb4?H<nz2qr^7RvB2;ne_gO&8Tt9;t5@g(aIAI4_Sj-sZgE*&RJYyzf(*8WbpQ{D8C?{x>cKiw%;T!udJt8kydax)BLb9I!g(0~>{G@p~<!g#FE8nl{{?)3C8v12QbOmC}(Hf5nO&B01{wvsX*FkhSQs>8uKMUKVWo@VaXu#m$Z<l&`#z12;8=P$Fc-oD}dxx@gkP9LGYJ7a$qX<Fo9=y{c+gUYfpdlcriw#g<$1)<<j#%nU16EHl-bH$6P*xg@;uI}=km7e-C95usxw{YtpzVyCb2;(CrQ=^J`kxfDN}|O|Sx#OQqK@q|70E@1s2nB3UYV`>2;qXuL_eF4dQ4{QRo*TcRRc8zkG8qo07wFU1I@8Ds(_&UFl`9Y2CDOTEX$A)hz0(nfy)3`^aSP$Vq97+Cim<u>K?uP55fC-#eu)i;RYTk!%fbPDkmg?z^-O52l6*q*7K2aD6GLzxEEL0n8NRuR-LHx<I^;e=!7TkU1MO8KKn-({C<t)(gU#n%*C55p${Dnn#h+<AkfM@x|^F=r5i?>p$Sjj^J@?FHh(%!#F>SA=h)`I$)5|&V?QuWdM=7llsImL<DdZ!iIs92vtTeQb43;*GZ3o#4ktQIm|#^n&G_5-vV_POfyWofvF4*s>SdND;XsTQ$`uYsa*O{u)K>lyislXJy(?;_J|RL3qE%Q&*m10pZWg+-*mU2Oypu$7F}1wM&{V<Ouf=ri3$v~lPSI$x#<-foYTmj9gH3)Mpe5*@s7Z9_tE(RhuyJk`B|tu64w~R+F+%gx&>|7xg9ZuN+Z$<pzkk#nB#WcEg$x)93IgzZ`9=lyO|0wB(vQ!m{G0O@eP+s(cgoTQhE_><M?tITh9{oM5=&Sbc`C3?;>@;WEn8zOgg;~HrD?}i90&-@wZ!`(j`Vf$!N-G#O<P9o=UYy*?t##t!Wn;4a}b(wZ|jCw6!I=W04bcnnf5Wc45S6~34ehitj9LV(<$Rd>_cjJdIjf;;>i7yz#)|4qx+V?KHg7UEKlVw!5V3>9ya^Lq!L54XFb@LC-=)C7gnFp_@b_6fwS0sO*;$z9jff~x%qIx+saZ4@$8<I_60ZAVd}V#5NO0~_4}3UGryiVs1@KRR+W%2SW7O@{DnxsX(bnP4Xz+g+0Q!%anT$C>*UBKne*N!&g#o*KXxkW+Q2`@kdN42!F9;AG33<ZSC`1GLRjAIvsc#x@gla=54;PKhwQgbd7&*X<65}&xJ?vBzzo^5$J#$Q4X*cpB3!zbT&HjE-5&nF;I9LE00trEVM$-69y20NXK?PxXeUB8*Bg3#H$#V>Nh#3sY=DqiPAa(xbv_d!*mI_q7AU#nu%r_*Sy4s|dl0&yp<^mskZef_qIgDh*Yr))2&lq$J=ySktS6>?%tk?8b<#fN+gM@mj$yAY@Fp|kN`FR6f|r*&?1hl^0CGq|a6F^GSh57?A4Si{+@W8|#F0oUG`YfUFxjH>s+S}vlmrO!MTslFM-B}H^vCV@7$?{D>CKHLMS1?z&jouJRu|rtNAu+4-q=(2^~E+M#cl+&V$IvnO1<(my?0WFQpmW;99mUY_#k=W*fk$<o_=Y*#t&(ZmH@tc8=CjT$qoZxDZKMS@Pb9l_z};huF3`d2WMey-cB^2Xq{Wo6YY$7qkMWL4M5U8&KIF5v8eN8;t8NQ@xBu22(BMN7ocE7@}m2E^j~k{Eu;ygFw@=OZRFr)rDpUDdxH8BW$;t}jD4;Q6N>7|H{ho*W+|JA#xJZU;ja9M#)?l=B(H+Jq-@!v97O8S!3NzK-?lI<aMBdmomxg0{`|UTmdq4Yg3^5tT(_r@%t{0(l(YV1ps)|8NVNUhfT3Uh{v6txl{V&PPf12de9QFzPa58|u15A0l81c$7UZ7nefEGIKm}boyy>e*(q^Gm%5W5G{D?8Q&vG-tFpT51slE9B5Z~|$(**a`tgjp_++lQn&zf=e!~G72&%l$Bq<eyYT&A5hvW4)KB30Ft_f@$a9wC>qQjVR|X4tV6hUYQv4RyHQyvXA|)vyiPCTPO(SU#%^5?7@7dW__luo2bA=Jb$bIOCrkq4K=gQ4JDmp(#RQ2fw+3<uhgkvKziwhDM5pZPki4IoT>M=S0Qsf{Mz9vw2g-1k$Zn<CA#N{#u324Jd<YMWIc%%N^grxA`z6VdBDB3wQNcwap6S5$2ey+x7Y^y0#11pO79uPY5_!g>*3w2c>ndMHsz*<OApS%{y!Vf=RYF12usD^}<Ewr4cc~N0!E1xV6}@$;@t)Q}8Z(b|&F?sHRy4X6Wt`%~~M)hB@0OK-ww_p(>S@1U6Ywg>m}|WeiNq|IECi^e6~uPT(*0!3zVET0ZX7hPdU+!7PYO5wUMbgx=zs_OusB3AR(wG-2Lp(x>{xzfZ#1rmz7Z-fdeA54`!7F)AZ58`H!5R2yPZR#H;}mE?_-i$V7^&ZP18-1I7U$0PE)2FA8}R`rcXdJ5+y6lwC^1WRvt)>!B8hj+Dis36HN7hq2__e8R<?J_`i#6I#{Ph@69|A${H9M6<f>;fY`#QzlYetnd>S~Sa`FTvxA7F1OZl~<*fHi`Al$g~X`CEAAThOSsxo{*bl2P`QpvwlJ2(`eHhcNM7asOijRQRvewj=bn*Sc*)ZF)lQ4|G#StqKheXA630Eihd25XWycTwcL$=>r+trO21Sjr0HdcEm(A~PujTZ5hw1$9HG67C8W2%TEn0YzQ;OlJfak0m*0#O%PAwSQ?g!Up_2P-hdB3iEN$P%zB%j4)_c>;#~|Xu2unPj-?YAWnG^AKDJ9*pTios>*I<+W)lU$fM9E~eJZsIJ`!~9;_0Ic+WrJf)vxeU$JGbT`iePF;m-XBs_o(%YLXTY-9jyzP2mH~VhT}Aj-dECGLqiulVS(--?cC|Dv91t-PP=Ucerku{xSLm?!h@xWi>b*KGWvkLM@XutFn?o=qn?0KaglEDx5Y%bQwp3Sn!RwE;j#K3<Hwko<f^Rlz6EFv<)nz&9#sN7H<VO=={mBM+@=008s@q3gq{G&u?=)i`<77ahf9Rc<9yvTEG+f<G5iUSAF-}@n7uF7w<4ymPJ7L-Bk4uTAR7A|L9$8dUJ_4di@OE*4nj(VXsok=+DYkl_c1o`&(#(FmGZKztZYM#tL=75M}B2sy^c@8IU?1$p*yJTb^d4cEn0B781&o_<5BDCBqK=pR)EQpN3*MS6}Sm(LB;d@o0Wraq6pxTke0##%-h+8wUph(CR<2-_0uh})QEO9e!!`O+qHm5Ism5YH)nTsYT|yliu1b44N{9lQ|vYFTVSK+p7b!(`dN4(OndDn`sM~Q1PL3l48yj&&dL|Q@ii2x#9*IEnMM$IH1)-{1OIhk>iFm_mW~Lr@Q_r4xwU+{{IP=%P3;97*DGoGi75rb@)D{(*SGRY;wZ!S@4Ppz@99U9@zj+PL6fJlW?NkDLd#oaIYP?URFEP5kx_ZAv50hONz1k^m{?O-eM5@8-P4_gAP)T9N$iDh+6*4*qs{~?S$P66;#K;n1T{nA0+EBM0@LysY1u5C3_6C*p?J*jk&t3f({A8+sk4lSgfQSY#!e$`Pm0tbmxGfpuaNoC6^B9>@c8(7!WMTX4`n<EuKZ*8oyz^31(lB70(L-+%SMQBWxe~D->>Ruf6(p|3gfYB(O^#9;`UZlL?gbOjyh#nCI{?JY&77$TKKqN1xq@g@1nrzu;;jDg-2RU!bggiWxPtyU4ktu#yt-vnF>+rh*DM}?=x`CILHl5O+QwKfl1dx@wK-xn}kHD(Lco0^H!{4U>mPmeSlu4ZU;0&dT6P~<UYG_e^hS)liR5BArC>~YymS5c|i7MV_jmpJp2Xp<vrmlwOSMZ!t9_?fbl|d(Uv4!;zZ9XeX!WOmdaDtG>QmkdPFU`Vv2o|mR?rD?m;oOUuql&1on^Tq|Z+hFPp8+$s_#Pb*bx%WYH#XdblBOQ02H)ZvOT+!33YB5UXHY<QX!EiDLIF{mW7a?7kAitrhS3STpDm<BTMZX_30a91P9$jxBF53z#gj{igCR{JKe7lJ*{(!9l5(REVrb?=7{pY4-;8PCaA{`ZthGth?o7tW@r5!aN0G%}(cubrM?SG5IP7|9um(o4+E&#)(e^=wu=f#O8y7%}=ozhwi8HF{)4GTW2rqRTFQ5FJhMI4Hlj$g?#$)<$w10K)y}2Pg@7Ro9M4W3a)oj;9TzqNbsK|>Es~dnGA%+ng60%n29l^nr-XHtq8;;M8C`VG4u^e(n!%YGbT1yU&mCrp+?$wq`Zi4sFLUM1(@QN-dgV$PYI@_H?RR7!VZdMX{m`7Y3nO-A*7{SI(ayVN#}>vSrxyw?WXP7d4S+Me_Z3iw0lF8w(}yC5E)$7eLVl+Ben{)Iw@iAG6C{=Ea9=pZ4f-OwxGnLf>Af-HGE(SUoTqRy82Mz-vw@}Edtm$khz&KM;;Xx!!z;>fQ)2kzrNulbo=!FWI5=Sn3PpV)|so$1^z$%kP3{I`G20_SDudTgdixy>V4L=pO!aLvAwd+W8}-r)lPb^!h#`*i<gsKwDw{$rTolD0aTYb<V!>aOW+J%d+?#1)?NvR&Z7vkf*qyC;Y<rT?kiI32AcyEz=yoyG+-S#Yj#`zre<KLk9$pJBB)QV58T?f_EeD9I+xf->g|h8%d<HUeP^l)l~XZkg?Jx)oYKQ%mn_u?DlGeqD2$%k%9v@hu=v6lc;#$)?|`=XF>@`5oZP<A6W|ggBkg9_vgl%yzO%e>$<XLj^GpbYTd3aBS$YV{^3X<9VFD>;3E_TBd%aPML=!;?>5|pr=XG$=a-SaVW15t^^83ecCUJ~fMxa+hm#7K|%9GIjOiP4;$ji$w<{&!n1v~YpnwgpYEuf^1PB7b3t(8!J_oKo_B=y6@ho+}#z>M!S8A&93M8WQ-isKPrQ7u(<sLlLlZ3b8=;r;SBJ{%iy?v;jo(%yv|+W@SQ3x|p5<NM9CzIutt8&X4)OOVZ~8dvz0pk&#_YR<Bxp1+jT#x7otoS=-PyD9y|4lS`fS<R{VM9R_z@6|AtD?#F%1Io?0I`bh-ioewHFbb%ex5r<s*;J0~X)X~2-V=%2$a$ccD&`O(@50f^H`vc=>uX)<#D53`Xg%=^uKHKIr4Ba|Z#nAT{?nD|A0;QfwzQn|%w}KI#8=BFZaYW}D2L|s-v|inW~i-`_IxVbSQAxt&9|YWFPd7a1di}@<ru}kkR@z$UztSwdF>y-jaOsR%J(9!+fZqsiu4CEJK<=pjDhUPfM>Na(Y@(sDVaMO>r^XcQp)!g^QGMaP=1Tw&O@l;vousL@U~1$aa<TI?9E$)I<yx>ean*y0I+H`^-E`I`{(>nle~F%Ik}(B8EmUsY90hKuXirACTm9I4cO$rw5LHeU4vKdgyo=ul_NSw3jX8XV34^`>(cF@k5q#a;$^hjR42W1W8%##TgkYE`$Nc*)a5Z?)1uRo0Pz94&F8tr8%C6i7OwhZ1=d4qmFvmd^R(|pHI~Lt=RvPU0O$m399K~5wEVHhYHIOvn;;TQc&=6ZrH7R*+y(%Y1>F(l<ph12^|rQ#B_Oc7=d$`4(B}_}iSz^l<Sn|4cD0Z8&WY>2sYA5UCUkSKK1a9IP;grSRP_ryb{HTHqF~h`#f&96?zOD_NGn;5He{so;36HBlsC3fGDC0eA>~$QjAbJ7E$~TtvQ<gl?~%8XOokRP!iE1SyhQk`1f{w#Y2LjzTK^@WIO4=9;OZXu6DzwhcH%Y)hdX0QLbb&XOR*+6JI%kON+%t4M=Fj%AqbuS#9k(-Mxxbo+Z~`={05%YEYw7VFFKdmgrgA!=K(kQm!&(&+PI-@;^|7zGqhlw<%#ilq)@z=jqGk-p*Ci(6q*+XD^bY$thofpT7cHXvtoE1WQq>_Q1cC#k@?7VGejs8YV3wdqQ3hX5d~Uuz&uJHvg9g5PbSo&^5_V?W^wG>5A?QL0u6T8Z?&RkR^%&F71IYX#vORe{v*I8nQbDSV>*dx52lNn4-mZM0UcO7gW~j#g(O9ZvJI!!@*)q*#$-WRHLyYtpS_rY8P>GI_ynZyugT4J4EGq|5sz`$9-^L{8rpurQrXF;fM7f|$>p_PZ>!@YdK2ChwttBV1>?oXav5PZ*v-TJc^xaP`;OCr&Le?1<ke>Q{$&!(pwX+#z5EzD$UF(C<}~hmq`;#hq#7ZP+`4DbKjVwfE@Y1m)ZT~=`PU<xHvehcUVjw=t2#20Pf8AQTWz#~y$Gx53LXve62eZ_TMM~MmdHm^z-FL{DL_^xsz0KNaH6sU;X5xg!jMRgOrGTX!CI`Z-)yqJ`L*=jvRByyzP$<71>~v@^^p$=s`az#>>T%$ay-Mgz*+f(TIItRO&~Q!RCfHdQ&i*r%7_sq7@3-y_<nuV1)ds_OCt$)!6=XR339{=oRbJ6G`#3W?&yw8$S1r_R(WErLs!$hS-Uh1jyy*jaI^}@$hSlckDo(7xZ99mVhoor5UC?;#=5MTolWw-NyeG8c=Jlh&dIQ>=1qexkJS8hv(sq<?(mr0DejvBoFWxD>RO4Z258lbR4}E^2Qdt7@_BSz+GawYHskgF*D*Gk<!LwfVQ<|z>B0lW=A_HwH{x~*y(Ze{FKaoDaW>v4_E)7g*;wh~$D=39qf<B38%pmkVPy6;W%3Gx-A)R{SD~#+(yD}N=yMwZ9#!?_aoQexARzD|14>eS?T$bEmGONB_0To*v$|Ig*^xKZu_{kkweyUGi~sxQeJE!H*`df&9dhNYQW|y==N6|FR6KfyU}G19tdo0?bTWe(mtNc=w(jV!$>0?-$5=5d+2!73;&?j6q^RZW1U6OPov?}las`Ry-#Kck<x{gkNIZ2M6;QK9OrXm2B@rKoI#y=QuE>lU<-*mUQO(FKkPJwR>o;x?SKZni284n|^#!b3Amy%6VcyFtS$n>}jJ`5Vqx*|s=dyocJRTPY`u4H0R<rfF4NXRq98I?_;zPaQ`NBm|r=OjCpyxJK%#fbf1gNF=7d}Bzus~C0?LJ=x%`#eInIhjo3D}je)VG-Gs8bvaBDxk7*ny?<HNCb1j@d}X=pkpd(rqE^TR7th03w00KN@FTdPcAoq%!_Fv;w*QeQ-azCPCD(wkW+GhCqnD9aH^|R`HeC08-5pfa6-0W(sW)n)I>rTj_P%<S@s}55mV?!TUO1ocGFB^|;ySRz}G+s4^MY$v?c=uey#<qF+jG#O}BV+Q^N}{ZOU?+wLV+l>)95cvx6wVg$fe{LrzeUzVbrE0=}HO?>snOgK{61;j8I8}Hhdw*$;vQFfO)e2_Aq9(BFwoy1+J3lXdZ_AyC$o~YptzBQRKL~Upy{(-P1W#ryq{T|k60|h-sURlyP-Uk2R6uC~JY@KJsRU#qEu>QN}TxXz6-Kz?<?5v9bn?D8-G*HsNqhZs=$MxX}92V=$LDZtR?bGTHm?xR97X7M|I)V#otralkRH)K#pw2g!`~iQ?MF{P{bPq!#7gqXH6rB}X>7HBkw;FK=I+Te$T6N^5ti+-b&2RoVH3iS(scQJT*F;{~1ehB=o6#P_8+uly&^x=!Rh>M9%)`a<vaOhUe(bsPM-XQg?f>&9|G4d!lf+mr)XrKZoUSCO@4kd#EK$B}QDMlF;EMO0ZjptX8Ey`zm_AQ<nOtieyznLYFyy;2*pjDE2h-|Af~>C}AuY~On;#;Zmap4$aN}=W_X(YF*j#l`R^gHueO?5PlBETxFxyy``C1qrBXVE}J?+GhnoF9}z9+#!GZTsj*jVfz<cjW_GP7z!-JBoN{F-sUiSOt2EpbN1Jfs{;({U2{^}~iMU^Ba@hgU3b3*zgjl<<kr9D8h5CIz%}0;+Qhwysi)TZvDrd0L-sOMvADM=GTofK0g0*De1LcIBy~K}_u!sz8VHmaKCY=nb690+h0Tn7Y2h__Zq7OMA!0ppEB^*C(!83rLd>-tFY9iZe`HF99{GqaL2maB-W3#TorRUQr0+{qylBlw&-D9jK|zjpx%`LXB*QKek@Fq{O@LS`ViLc*y-HYiw|gk2Gn~;|5%gpoKk9Gv{UQ@4BqCSfm8;MK9+sI~}rIlh~NEOE?6zXtBcAwIgWZ<-@N!1otiSTS2hiBrO*>UX`<Xe&K2>C&_TT-zTAE%!kdwE1T-S;PkDj=JW_-Z8B;yAWp&r<de#D6!}BT{QpjJ49lFdXtE`lSH;Y|7vk(`Vb3Ln#%N<{0)QCYiOb_KlJ@1L+G5%MvK{|B7h0%%H<z|H4KZ6N)%jOKoKj1H3&H##a~JPnx6JI#=G;1qjW+{F>>_;BA;zgivQyIEw^67d<XU>a=9f-PmfQs@P}Js&T~iDLp*2R}+|=J(<8O}A7LOZ55Z!GumOUbk@Z|~3($iMO6nnOeo>LG}bo>GyFWn&#U-W&IOtM`x>8sR#d+n);kYpiQNg(s%--(6c%s-4OMs>u!imdnCF*WN-2Jz<}k?>@3HOnOJsPZQZa>EBMp2<?X+M8hrkGaE6DfrgAbuGBKVy>e32Q>e-A!Tz*NA6A>g%toIn|YF*f-ukor$Kp>B=A>;@T5G>P}n<qKxEw`D@V!V{Eq3H|1^R3u_Rc@$Mcdl5Ti|k6V=s>=|xk;)q*WuJSZTD(CupCwPvPr#9Ziw6V0GR;|61(ey>@|gTrrF(UKwIeBlx%Abyem_PF$XjR(DEse`bLEE-D2dUq<8K2U*5*Rn_Eu2vz4y*|l??-v<Ea$<X}FZgb>-WR!lta2}~fmqdXqy_|k*@i4{pfEq%Q*}Gk^#j?HEs|fQX*zQ!zp6|Ly)abD&W3n#Q5gipX<}QbUe@lUGE?qP4n-gf)#>hI(i8&?kUhcO7U?T_(>W|;YyH~{EAw&Q=;W)tkKg!v(A%~c1h{*p2sKRFs_cb*KKpg+kPS8Sma61~7?ZeeY*iIqR@3e6oJ0$AZ?hg1Q#zIG??{&h<S9@HX8a~9i&6~%P?SM`0Wb}|gQi~T^ySd*G2ywkH@$(RA{)guY{~SI7im)fp#sKCkJSmZ4B*DP;}bb5Xq9!(M7iXQBP}1crQu8?Gt%mEBlAw$fc2tIFBM$(=NN%R>n+<HXXd|fL++$FBU~6|NiDe;nNN0h%$rtqOKXJWIZE86)$j~`&RLYAiO}0m@8e;A;eJa1bqOP{D1v>pi5K$4R=X(Rj33q8aznt51qg>X^eaRCX<UwMWp?mx1B(jFLHAV--_@2CA(ZgXv2G(E`T5V!Ul>4A<#=$5c?KZapYGfo5T&ZKmlq0`{A^^)6fRg#Z!AMu+0Nz$fuSXXhTd|{%+>~8#yK_Q!m;C^9#8@0(cXQnv&Hs6j!W&vy)9|<9VuNBP`5|9pKpO8k6J8_xsX}AJyXJX8E$c(`~2q91B*HD$y4!{M&?pf6m?yoIFSbOQtPkw5(gn#$D#iZ%lY15sF+QZ<l+ZO<4ih(?*G#uSBy{Ve5r-lu^dN{F#`sJit;~I_!hM}F{YT3Irhb_U{h-&xmZZZ!|!e@-x|-f1h!6>4jFwJS)w&8;&KqdU6&ssyQVhybGUIesR&L`4wQ|{J5@Sf75Mc>?vUm5m-u<jkJ0&owv$`j?SG_#9qV!KlB}3T_``z<Kw!UPIda<_BR~mW&?35+`6B=VU9;9<>S&O)(;8aeY@1f$QjvI9Mc|BXc$o4mmy9Z(dIFm)MB6NuEHG+Z?D8J<(Y6yLL2kWrkxGEyTthb~6zui14gg3AI4Sn9%Bo&26HW!$#`;?KrLKv44dJk)Qlf!5MFM%i^=&(1<s3pFEP3EWvY*~gY2~ugICpMWqLH#^%XTx>F3R~9w}v212vt6rVYp@FKgEr0@vO12=e9)$7*`UmO|VaO?Z<p)U=M-&5<Nn~ht?3MIAB71nq_n(GX9B`4?@@i$L5!4hgz&F3hyS|Pr{655cug&dwz?7>zkKQ<-g3RW`e(2s3dPhms;>gr>$U`e90_f&ar~Z;cVn>wE-v=Igpu$Yr>Cd{oBUV%qWUaf3e)xHFvAqs}<TWeI`GRT?m5c1Kn7<l8^p5vAe{y!wzT5QoH&3K3apInYBSHRPiqgNQAn180$a^a6j$B{ph)L!SnllNyZRzrG^WMiy-E;xV>C*g+6XL_c-=Q^hlLv+spvLjxe84zqtQfU74+=?40iCoat&=(0A$sR{@<d4G=F|6HgI?vR?b;sc|g7qO%-&0TYX4o|Q!voCwm5rmFT{FYJR;_Kv@6riK~vS#@!-I8dgTa}&bhZHz_nEX~5O#{WyH-1_=y2?;w0b_<a$AH*N|^w=v^W5C7ob=hSS9x)X<k&=|p?J@mh=ZZi=?5=ODBuUa(E=ok~3!t`5_ErMBr_siy5e64^(X#(c2;o-ra9g!;6<aFWKc)GQ3}^_<@mtFgQ)@U>elxr<hO$-Ke26%#sJ<S{0Hq_1(iA&#H8z53SVJ9>c*f8k$8WxWnDoTYK%z&XJ!z_m34RKORvK6o;;GRHpGCOI=yyUf@`<793B;h8BB!Dud{|Ciq9oWl{TZng4vh}cHlo@wE<up^_v~!1ol@&9h^3zqd)Gnz9&`x-k`KH>%&j+!vFuRL7CY0T*?b-58%}>aut^^43YJt#(Vv++Z{8vCiHmGX_EgwSwozSR7}m7qefenEy`08{=)0}mWDc8k=-sozYwzjP>?}ZrU#(OWfUZJe!g3x2Tj+?<0NL#e5bN4HpA(eSqvx*w#&=HL7FLe}kdtaS_~dYd@byfK`48W^^iPYX>qyD+&@-Ax%Hm(IufDaNM<QJa>137$6Nmc5O4+1y3lF5yyvvJKdx6wqY<+Tbi(zG9;>)l@yHw=<V3${eDK>t)OjN`iEr!kB)ev`UG%aDJiFHXmF2U*aOy12R$_mQ@xLE4!^Q>r4uNJbt>}6SPF}K{1FRwcC?N4Q5p&Py8lKP0jA>Ux(z1kOC98Rj)FR#cXxrF@zEwOHO`12G>^(W!{uVmGH4I5gLSKw1I$V=Cvp~vVfC&|G8S!f}VKFoDosA<-w36Jj1@*AJuS-lXih5c5x>(&5~4_oxI57XBBvDn4O5{C(u;G^!W!MdQW?7BtoSuAZ!-<4$El~n2rs$vU@m+;MPFo%;hb}uklyNh3ce$lO5ZONP#dtkiG26mq^sCZf7Ewj<pn9*o&*!!1AZ$R8ezd?cS@4)&s?_p@gcREyrv5*n@%-dH6CT%(9&Cu5iR}l%Z%A8;SlXWkBws}gA&i<H14O{rP5>xQFJ(ZduFYb5e(d&(?gDtJX*LWp-40zC8593&0>$ZaKv)F`HKWiBh0rY{*(pd4{!k#E5{cC^4{lp$<ZE^F)n67=KfrtW*@C<fNww)w_v0--rgcr~Lj4ykr;p0i^Y5vSbI!Oc})RV}pZ}yfT06Yu7U?BoqaAAJ9;zjFoMqnHdBEH<DnSpuADP=>-xeHd>?%pAxa=;UpNK>GTZ`3yT6Dd9DM=d1gEAKQ~%I?rDifSI#{t3W9TCnWaZauga`4yA&sxr_;?Be*5`u7oanrTXDZnvam6`MajD%tSnt|gYEURu?XdH8oBo&s0+3Nc~?pQvCq?KSL*9s27_fdSv2*swCA6RXNLUs=e6=%wwURWrm;S9WT`EkJ|WWY)zUQ_;Qg?FB0&CzR(V!xO<Gi$;N=F_9J%u7B|jREaEeC2E27LsqGtXhEI{uwM<AqmT2V1>n;lE|$@OU>wpBWB`>DC?6DgWDAm)xMU;N6w|Dtwt+2sIyC8{QA>rJeD9SfiGdlX<d=wuPqG9n2Qu$Ra*5t%XG`MJN2H;gD2q<J9-xf4*A%=>93qbJE9Fp$=N2*ynJv=IZvIN>Fp%JHPS(4>OmC`=Oir?qzbP$}PuChoyuGqPSN_ZiG?`m)8TODMYi04i$BQaXBX8M`uz1r(P)56phLQ<)|9OKm{j7$=JjaO-A|~@p!e#MzdMN00_;BO%O+4&p6*_x+o~K&MUKhfK;s*QlZ8+KtM{Y7=z2ksJkhK4OeYG~ENH%9|o*?nX*)!fg-DeBI?O)GCJPIo3py?m(&ldfKV>KZosbUkgTJ3q0$&H$M(D{4lCc!(uiOwUy-KiFjbX!wh+Qk4y?Ab`!TA|5v@kL>jN=hBw3IyNeW;byQBuhGGfn)FAnd4~p)^82_+hb5(QQzz|_9Vk1j~=c&mHeGrm83n)0;=2+!+l7WpxXYf3&uJpWm-i&NnzJnreB4XUDJSLWw&4rE`qV3ZRB)~4okHh0ya2T$@85hajXB6)}*FnedvOkxYX;-R<}{-Vj$mLW(pIEI$d3mFjLJ>7*(d&qS}Og8f;Bp^74g$l}BUOtzrNG&3BnLVnua<fIUSd-|lmOQDl=85EB3jX2}K!QsbbArsZThyJsg|rPrf8mv1YwV?%o+Nq@hkGUlPbN3_$SD$GzG3Xf%9l?P-UW7|<Jh)87zG9>-ymi6>)U*53U4?fcs@>+&y;rlvS`Ydkp*%rI&=V~X@2Vy%>I#pBnkTfS?wh%wNWoS_n0DW^<nem7FZdz|pLycT^?g<8~P}edz$ZRr4(6Hgp<Q#$%0JmJ^S19W*Al%!4k;sA5`~H?RHXXl*X>MN@0%LqYD%H!VP9<Ab7r69SX#pL_1xrX+e*TgVXomZQJ4%S3*>s9vg~4@}43NKYWm3{>!NMv;8P^0CoKa4Ppog!xW)|xbFI5;gIk3x%$#wS_I5xCR^4)gxF@d}5Y*LI}nsDy3rlue2o^Q~KThgL)x8njeGn9K*g{yMFv@yBkYkW!4S7^j)Q*(!ndqO#Lxad4(B_uVW>w?Xi&*1}W*$;KFR6i%?pKHBvFsdSe$>s7R5pWZw9D_39ANUGfz03rYVdg&#A=>0jQslm$)J`-vIEBPJp!=`IK1&{7EHtwb{VCx^*J0h+52Mld6@i=TP}6~YE-T$nRqdl_n&nwVm@w<q&E!a0kMWB{DuX{XlV%tZvrzAQ8mO6Tu?Kk)OGA&k5Aeky7(-?+bLNm7%5bj`EP`#)-0D6|p!^-L+gCr6qd61P;^NX=2C=ry<!=7G6I^zi<7=+k4qPBd;S~XhS5tq->)0QmCkJ<~$ivH)p!h+CHGY=VE($)$cnbt6bT=Ua`ftH}W6yZfJYt2g0O3RQ`c?K+_4%eX*jMwJfFHO8c^LU}SPjn6Ab?JCKDa7MWp%{`oIV%z+;b3x-07%FCwL^S$A|C)8w&APim?b`c*=IAcsqxfDdlL<J_+~FSFb&NXXsW#s!ErAyFtnn263Ao?|$+SGicXy9IQI;X1Eoba%y}<73AragBx|?H2)@f-zp0OJwePmCrI2jpq0*Dpwb%oKj1$2hQo`#H)jB^_Jx8q=nee*{BM*t*1mexCP|pHwBE7tL+Zw1TCk~;#{U^<xVF?h3v-Dd+L$M0jaeSU0+sdT2m||UYcK={wQ(k+{)DqiY8XZ9yON<>qkd%8@Qw(XeJ*8Cy!|9Io^j%L;fzej+YQ4AHJU^@N{DokzWI{qLSlTA=g@1gJbD)z93jWaicfE)Y#VGd*;uG+klOwvqe~?Fsm8uoD*&PV8k+3{;-OCaH(^Gz32MepB4h_jm`~l8%u(}bW<vlD0bAvOXvcvjy<1F+GwoaX-^V7(eo;%9(({K9cC>&4bi@%qsMJF=2`nIOMkeQ>MLV3AIxZEF^`>`Z8|E*h&{m~D{x*?K%<2rnXf_Nh8PST3wJy(A>cPdHC<ho+=ZR1EMb0c(^lA@m!cOsT9A9d{CnbFdx>ly<L!C*e#?;x;pIJ%XH!(!YtS7^OkfnI=wCyf(P0qWjL@lp3*qe}e(vAN!s}V!hjb_-zixS}vP*w%nml&PZ0fbf@4{{r5z3Z{F{UT?Hc`T<NDBt2-qEXzi&~jkMQ7h*3pZA;poJm@@ZCbuq#M75{g#XOZmQeR9LrC-L5+&Q>G*3%M_WxDI2Bb#swkosxi-4CGXN6{kjaO+F8}+c`l%i*c%Q4F&@^i2e7Z}a{6MCSTMsR+Ub2fyt;_E<Oc2>qpeX_Cvdoxxd;Mh$F+_6xXu~2X`ooBxVujS>QDNulUhiw31REJ4%k6(b+p1~GHgnve~6?|_{wwwh~)`*Ntf4txtt&>*s=ZD*|T-?wRM|zA33IGV`qeX0`<)MKh7ICwT&f!`q3ivE|GuXT>={H7NgYp{7N#mxuY`!_6e^~Qq#eW_9mYoaUxsD$-EI<iunOA9l4{Oh@>^HqdIsX<8_(q)7kt9RlPX!0p5p;(P#D1l#X@u~o7-HF3=gbIefEouM%Pt0j%~nbD1A61J26$hOkRst(N0tEt4?ucZ=HA#Wyh%q?jx?Y*ou=J9sRg9~5m|mF9i;Z^d_KrQ5cYh8ee-~QSZ4e>V>~<@+h8{;3{#-lRm>F3NA|x1+L*MO5^_?P416ShfHDKYeKCsZo7Kd(15sRvlLk@KlXxN8i>0(oD?%w-#NyHGIgqdq#IfSDCyG#MU!+rP78@vm$gg&&(LYOOhU16q?bJVoHUBDU{%d3-bvp&Cbob{{bTgA-7(Sp&SEGw2h6?jw-e+oHnLsSM5Xq2Yf@W3XQE1{miS`%Cb}JKnznI(yW9%!|9hO~7T!w!sky!{psV^$GWjuZ^&|m^UIUGrk*WB6<Cc$|kj!{ihR^lxI<D3a&t4z~kB`YD<jLL|?IID4ktooFO5kv}9DP3F6Iqh?llz9Tfr3Ae^QEHYKTnRqMdMTs2#;7|avpf^bA%}@<?%bLxP_w!}SJQ~MiqoZ*jCKPnD-{~v3qXp5vK9^V|BS);!EcD=X<(aAM_cOYWax&3`I1FR@Vtxvs;FVcS3d*x4N({_XXgTA=Yb{JN8u!Ot--)%4GNTGa=SGySSq!sbrvt$7e<>LMON$Aw50NLYr4+<zm*dO!X^LXq)?3fKn|-@aeE%$$PHerarf7DE(Nc#8j#9Fu>(Ezm$X}n4IH(tYSOO_!cg_ICT6F@snlNIXjF@YHT=t}-UfyMCQh$qKNg;U`vL}o{lL2Ei;W0xgIyC%kxn{#1|AZOO@o`C@3g>q-A}p1+bv#;R9>RlDLHOrWJbub7jK}cuRh1JcME+Gv-UzWxdCmxq+o&*Rn46ZwXS_&a*{;SC8^QUGS2~+R(KnKvuTI~u}hqe1ch?~!jl@)t=aD;cLaE+2lTqy4Cp|}WBC%$_Qcmf{hE`W&dY#n%gUWES5%+m6TUsFPn0I*4_ytMYYLVnvRsw;+>{C>0;4xZH$Y^8j9sFQVZ&+UL3^qARZQDH%JWb`Jh-5t@KkOwv2Ci_Kj?PDCQ;lU3poDHQf+<$ijk=B=v!qQDQ~GSYI7ufpXvvDy-7eGO}#fRq*0a`A+k=y+C^pCiZB3_M4k`CqkRm+UU*GWTLCX&9Be0})vO9rWg$M&vZya5D0rDr_+MH>KRxRJV!X`-8;hk(yal&IvNUJa(iJ}qA+Y&e!0Qgk<2h!vG0Gj`a5Te7=X1)i<&R_K^zvAPoT&QK*H;sr@)5~G{TKHb&P14jnd_+FkXJ5;*3*J?0MM!|!KLh;GTx}X=j^WX2sjEcl79G5o91CcRxO!vZ){G}B+Bg|I!$OhqRr&4?B?wbij^vPNL0?al$AEVO^dsH@Y##4tHya*AoDw<*42I(I^^+P+Ym(mgT<$(eoHiSf}>i{Ttyk4elgpgX#+5`@s>IAZ@!JvDKh5)vkjgR@uXR2>~CqGR>o@LBCokzg2L)W<{gU=;%Yu2Ap&mhaT&R`dd?-QYg6~b_TF$YY8cCpZW*sV1P;EUI8$C;<CB0V^wk-53ro$5xi;j_swjNQ9+q<%H!5;*21B#8P|~t-_g^1c#$@pp@D_k$nAl9bb9wKi7MN;p9J7KzDd?YwK7JYyfSy>oR8dH!q(4F8_Hkeh-jwX@C{9JR*)T#bEzADcd@WJv1YA_GU<1A`vR=#8R0A_aBDs-&LMkUzW~VH1@GgLGVrpqx3{>~5z9T5~4?U^ClUr>1u2yFrb*`??`ll(;{SBGJi3>_0riYQ(Y9DKXDA9D*o;0E&Le{f~jD9HGdCGBpGE%{?WUGXzGqex?r-<e8R$sjq1A35}6XM|pIG{XFKbEi;Nn4O&rp1wc@Fg~^n`SNJY^7G*2|a5(k8|Da+s*p%GFafMc@@jM$Ud%1$jYt$P!q#Eskn+?XAD~isAi@|B#EWnvF=1-G=oSnjMCg9^Av+MG6kouF`LXRD8F-wfg5H<jCG&*7LsFa_WAYJ7)E6AClqVA(qmNv78#L!;jAa}ruj~H>Gpk;mLb5GPtNBMx`FyVq6FjylfDeLk^vKOW(rD8>BfyF+KUq(`U_Z|BZ2Vl&CYcSl0qVPU?!o<O@Q>_^6)wPP~1A(&7M63#_*t`u^e;NrLd#kdLJHx!QCDq&f$}Hk#@+WSw80avfHWfw?M2abXHZcONM{C1RQJ-niywDNc>yNZsT$@HyMK3q`=9eOMwJVzi<kpes;`4bMNX$`z|!s#P!<ti&kZ`h_m<nwp>-`M_k3!_CQV@Cc3=;Y-=hF+?i)ssH@X^Mea}*^^kbN_yE2`uM0;<Ybh70M`la136(c6BL`^Mc-Nc#v+VxK1z*D0VNJ{@?@A9zu1QD%7FDybT#ipgM1=C~E-X5!kjE>9n>elU!V_pb%@eRav3iRkiBV{x=u8$axC<$;TGVm#brlkdFTyRK{*ozR3mKg&z7i}cx6Os7UCg-KHl1?wXd>|W3=5k_;n}e1(S3*$RCpN26oi?FBYbzR{Jrsr(tnkPPGiGa<)*x14m&cDI5rt$?JyKTYVXZ0MsXf7MIPPPV@R@CL&@qODfX5fgk5uqlZVW50S$^^?=U6@x^Tqk?NR4VO~O=`!{0a~>X#;K!=>tFk@y3KMo98JN%$H6z*EMl)?m$afgC-+E<Z%-s#*L?a}BGXW4t0BhAdt1v0H;?xiC4Q?G|ZrpF8CFAt#8Wey|g<36V>~b2tt4HPNMBh~WP=He>WVf%?yiF=lirc=C#7yq&h#8%$<P#fEAoBH~v*c!6~zzM<&PD8}Ny?d?OF*4$2SX{MC2-qan;J8imWXaE|k)*gf1jC5NPX8eDS9J(^*){wT18d8AZmL-$$mH*Sk<l9m<UT(^MAl0kSG<`2^?I&4D>LZd9fr!QnPs~2%+pB5ta@}2(6Ar~`!L(>@9$<3_=65OU0FM$U0<N=^YG%drJ*I~2SIm-CIJ12wq)qVucCfDBY-N&rnXLnQ^kT=^hM_~J9RM4gS<z*>dyU%ha?{WMe>x#a85II+98+Y@J>useAjFaMe+;4Ia($UjRCw3w^?2qy-Z<+6=3!qDd?R}|4sO9i3yP%R4;=?g^(WO1KTJzYdc91klhdGpo86V2dpL;{EoZ4=OnTQD3P6*_J8Wu^x0wg@{~H*CK^4Bof<j!WB;{$VJ-PDP0EY?y"),format=L.FORMAT_RAW,filters=[{"id":L.FILTER_LZMA2}]))
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt_stacked_v2_fixed.py b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt_stacked_v2_fixed.py
new file mode 100644
index 0000000000..47cda12c6d
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_gpt_stacked_v2_fixed.py
@@ -0,0 +1,543 @@
+import collections,copy,glob,io,lzma,math,os
+from pathlib import Path
+import random,re,subprocess,sys,time,uuid,numpy as np,sentencepiece as spm,torch,torch.distributed as dist,torch.nn.functional as F
+from torch.nn.parallel import DistributedDataParallel as DDP
+from torch import Tensor,nn
+from flash_attn_interface import flash_attn_func as flash_attn_3_func
+class Hyperparameters:data_dir=os.environ.get('DATA_DIR','./data/');seed=int(os.environ.get('SEED',1337));run_id=os.environ.get('RUN_ID',str(uuid.uuid4()));iterations=int(os.environ.get('ITERATIONS',20000));warmdown_frac=float(os.environ.get('WARMDOWN_FRAC',.72));warmup_steps=int(os.environ.get('WARMUP_STEPS',20));train_batch_tokens=int(os.environ.get('TRAIN_BATCH_TOKENS',786432));train_seq_len=int(os.environ.get('TRAIN_SEQ_LEN',2048));train_log_every=int(os.environ.get('TRAIN_LOG_EVERY',500));max_wallclock_seconds=float(os.environ.get('MAX_WALLCLOCK_SECONDS',6e2));val_batch_tokens=int(os.environ.get('VAL_BATCH_TOKENS',524288));eval_seq_len=int(os.environ.get('EVAL_SEQ_LEN',2048));val_loss_every=int(os.environ.get('VAL_LOSS_EVERY',4000));sliding_window_enabled=bool(int(os.environ.get('SLIDING_WINDOW_ENABLED','1')));vocab_size=int(os.environ.get('VOCAB_SIZE',8192));num_layers=int(os.environ.get('NUM_LAYERS',11));xsa_last_n=int(os.environ.get('XSA_LAST_N',11));model_dim=int(os.environ.get('MODEL_DIM',512));embedding_dim=int(os.environ.get('EMBEDDING_DIM',512));num_kv_heads=int(os.environ.get('NUM_KV_HEADS',4));num_heads=int(os.environ.get('NUM_HEADS',8));mlp_mult=float(os.environ.get('MLP_MULT',4.));skip_gates_enabled=bool(int(os.environ.get('SKIP_GATES_ENABLED','1')));tie_embeddings=bool(int(os.environ.get('TIE_EMBEDDINGS','1')));logit_softcap=float(os.environ.get('LOGIT_SOFTCAP',3e1));rope_base=float(os.environ.get('ROPE_BASE',1e4));rope_dims=int(os.environ.get('ROPE_DIMS',16));rope_train_seq_len=int(os.environ.get('ROPE_TRAIN_SEQ_LEN',2048));ln_scale=bool(int(os.environ.get('LN_SCALE','1')));qk_gain_init=float(os.environ.get('QK_GAIN_INIT',5.));num_loops=int(os.environ.get('NUM_LOOPS',2));loop_start=int(os.environ.get('LOOP_START',3));loop_end=int(os.environ.get('LOOP_END',5));enable_looping_at=float(os.environ.get('ENABLE_LOOPING_AT',.35));parallel_residual_start=int(os.environ.get('PARALLEL_RESIDUAL_START',7));min_lr=float(os.environ.get('MIN_LR',.0));embed_lr=float(os.environ.get('EMBED_LR',.6));head_lr=float(os.environ.get('HEAD_LR',.008));tied_embed_lr=float(os.environ.get('TIED_EMBED_LR',.03));tied_embed_init_std=float(os.environ.get('TIED_EMBED_INIT_STD',.005));matrix_lr=float(os.environ.get('MATRIX_LR',.022));scalar_lr=float(os.environ.get('SCALAR_LR',.02));muon_momentum=float(os.environ.get('MUON_MOMENTUM',.99));muon_backend_steps=int(os.environ.get('MUON_BACKEND_STEPS',5));muon_momentum_warmup_start=float(os.environ.get('MUON_MOMENTUM_WARMUP_START',.92));muon_momentum_warmup_steps=int(os.environ.get('MUON_MOMENTUM_WARMUP_STEPS',1500));muon_row_normalize=bool(int(os.environ.get('MUON_ROW_NORMALIZE','1')));beta1=float(os.environ.get('BETA1',.9));beta2=float(os.environ.get('BETA2',.95));adam_eps=float(os.environ.get('ADAM_EPS',1e-08));grad_clip_norm=float(os.environ.get('GRAD_CLIP_NORM',.3));eval_stride=int(os.environ.get('EVAL_STRIDE',64));muon_beta2=float(os.environ.get('MUON_BETA2',.95));adam_wd=float(os.environ.get('ADAM_WD',.02));muon_wd=float(os.environ.get('MUON_WD',.095));embed_wd=float(os.environ.get('EMBED_WD',.085));ema_decay=float(os.environ.get('EMA_DECAY',.9965));ttt_enabled=bool(int(os.environ.get('TTT_ENABLED','0')));ttt_lr=float(os.environ.get('TTT_LR',.005));ttt_epochs=int(os.environ.get('TTT_EPOCHS',3));ttt_momentum=float(os.environ.get('TTT_MOMENTUM',.9));ttt_chunk_tokens=int(os.environ.get('TTT_CHUNK_TOKENS',32768));etlb_enabled=bool(int(os.environ.get('ETLB_ENABLED','0')));etlb_lr=float(os.environ.get('ETLB_LR',.05));etlb_steps=int(os.environ.get('ETLB_STEPS',5));etlb_clip=float(os.environ.get('ETLB_CLIP',3.));compressor=os.environ.get('COMPRESSOR','brotli');gptq_calibration_batches=int(os.environ.get('GPTQ_CALIBRATION_BATCHES',64));gptq_reserve_seconds=float(os.environ.get('GPTQ_RESERVE_SECONDS',12.));matrix_bits=int(os.environ.get('MATRIX_BITS',6));embed_bits=int(os.environ.get('EMBED_BITS',8));matrix_clip_sigmas=float(os.environ.get('MATRIX_CLIP_SIGMAS',12.85));embed_clip_sigmas=float(os.environ.get('EMBED_CLIP_SIGMAS',2e1));distributed='RANK'in os.environ and'WORLD_SIZE'in os.environ;rank=int(os.environ.get('RANK','0'));world_size=int(os.environ.get('WORLD_SIZE','1'));local_rank=int(os.environ.get('LOCAL_RANK','0'));is_main_process=rank==0;grad_accum_steps=8//world_size;datasets_dir=os.path.join(data_dir,'datasets',f"fineweb10B_sp{vocab_size}");train_files=os.path.join(datasets_dir,'fineweb_train_*.bin');val_files=os.path.join(datasets_dir,'fineweb_val_*.bin');tokenizer_path=os.path.join(data_dir,'tokenizers',f"fineweb_{vocab_size}_bpe.model");bigram_vocab_size=int(os.environ.get("BIGRAM_VOCAB_SIZE",0));bigram_dim=int(os.environ.get("BIGRAM_DIM",128));gate_attn_out=bool(int(os.environ.get("GATE_ATTN_OUT","0")));gate_attn_src=os.environ.get("GATE_ATTN_SRC","proj");gate_width=int(os.environ.get("GATE_WIDTH",12));smear_gate_enabled=bool(int(os.environ.get("SMEAR_GATE","0")));smear_gate_width=int(os.environ.get("SMEAR_GATE_WIDTH",12));use_pass_readout=bool(int(os.environ.get("USE_PASS_READOUT","0")));readout_groups=int(os.environ.get("READOUT_GROUPS",16));readout_scale=float(os.environ.get("READOUT_SCALE",0.5));temp_cal_enabled=bool(int(os.environ.get("TEMP_CAL_ENABLED","0")));temp_cal_batches=int(os.environ.get("TEMP_CAL_BATCHES",50));logfile=f"logs/{run_id}.txt";model_path='final_model.pt';quantized_model_path='final_model.int6.ptz'
+_logger_hparams=None
+def set_logging_hparams(h):global _logger_hparams;_logger_hparams=h
+def log(msg,console=True):
+	if _logger_hparams is None:print(msg);return
+	if _logger_hparams.is_main_process:
+		if console:print(msg)
+		if _logger_hparams.logfile is not None:
+			with open(_logger_hparams.logfile,'a',encoding='utf-8')as f:print(msg,file=f)
+class ValidationData:
+	def __init__(self,h,device):
+		self.sp=spm.SentencePieceProcessor(model_file=h.tokenizer_path)
+		if int(self.sp.vocab_size())!=h.vocab_size:raise ValueError(f"VOCAB_SIZE={h.vocab_size} does not match tokenizer vocab_size={int(self.sp.vocab_size())}")
+		self.val_tokens=load_validation_tokens(h.val_files,h.eval_seq_len);self.base_bytes_lut,self.has_leading_space_lut,self.is_boundary_token_lut=build_sentencepiece_luts(self.sp,h.vocab_size,device)
+def build_sentencepiece_luts(sp,vocab_size,device):
+	sp_vocab_size=int(sp.vocab_size());assert sp.piece_to_id('▁')!=sp.unk_id(),"Tokenizer must have '▁' (space) as its own token for correct BPB byte counting";table_size=max(sp_vocab_size,vocab_size);base_bytes_np=np.zeros((table_size,),dtype=np.int16);has_leading_space_np=np.zeros((table_size,),dtype=np.bool_);is_boundary_token_np=np.ones((table_size,),dtype=np.bool_)
+	for token_id in range(sp_vocab_size):
+		if sp.is_control(token_id)or sp.is_unknown(token_id)or sp.is_unused(token_id):continue
+		is_boundary_token_np[token_id]=False
+		if sp.is_byte(token_id):base_bytes_np[token_id]=1;continue
+		piece=sp.id_to_piece(token_id)
+		if piece.startswith('▁'):has_leading_space_np[token_id]=True;piece=piece[1:]
+		base_bytes_np[token_id]=len(piece.encode('utf-8'))
+	return torch.tensor(base_bytes_np,dtype=torch.int16,device=device),torch.tensor(has_leading_space_np,dtype=torch.bool,device=device),torch.tensor(is_boundary_token_np,dtype=torch.bool,device=device)
+def load_validation_tokens(pattern,seq_len):
+	files=[Path(p)for p in sorted(glob.glob(pattern))]
+	if not files:raise FileNotFoundError(f"No files found for pattern: {pattern}")
+	tokens=torch.cat([load_data_shard(file)for file in files]).contiguous();usable=(tokens.numel()-1)//seq_len*seq_len
+	if usable<=0:raise ValueError(f"Validation split is too short for TRAIN_SEQ_LEN={seq_len}")
+	return tokens[:usable+1]
+def load_data_shard(file):
+	header_bytes=256*np.dtype('<i4').itemsize;token_bytes=np.dtype('<u2').itemsize;header=np.fromfile(file,dtype='<i4',count=256)
+	if header.size!=256 or int(header[0])!=20240520 or int(header[1])!=1:raise ValueError(f"Unexpected shard header for {file}")
+	num_tokens=int(header[2]);expected_size=header_bytes+num_tokens*token_bytes
+	if file.stat().st_size!=expected_size:raise ValueError(f"Shard size mismatch for {file}: expected {expected_size} bytes")
+	tokens_np=np.fromfile(file,dtype='<u2',count=num_tokens,offset=header_bytes)
+	if tokens_np.size!=num_tokens:raise ValueError(f"Short read for {file}")
+	return torch.from_numpy(tokens_np.astype(np.uint16,copy=False))
+_SHARD_HEADER_BYTES=256*np.dtype('<i4').itemsize
+_SHARD_NTOKENS_CACHE={}
+_MMAP_CACHE={}
+def _read_num_tokens(file):
+	key=str(file);cached=_SHARD_NTOKENS_CACHE.get(key)
+	if cached is not None:return cached
+	header=np.fromfile(file,dtype='<i4',count=256)
+	if header.size!=256 or int(header[0])!=20240520 or int(header[1])!=1:raise ValueError(f"Unexpected shard header for {file}")
+	n=int(header[2]);_SHARD_NTOKENS_CACHE[key]=n;return n
+def _get_shard_memmap(file):
+	key=str(file);mm=_MMAP_CACHE.get(key)
+	if mm is not None:return mm
+	n=_read_num_tokens(file);mm=np.memmap(file,mode='r',dtype='<u2',offset=_SHARD_HEADER_BYTES,shape=(n,));_MMAP_CACHE[key]=mm;return mm
+class ShuffledSequenceLoader:
+	def __init__(self,h,device):
+		self.world_size=h.world_size;self.seq_len=h.train_seq_len;self.device=device;all_files=[Path(p)for p in sorted(glob.glob(h.train_files))]
+		if not all_files:raise FileNotFoundError(f"No files found for pattern: {h.train_files}")
+		self.files=all_files[h.rank::h.world_size];self.rng=np.random.Generator(np.random.PCG64(h.rank));self.num_tokens=[_read_num_tokens(f)for f in self.files];self.start_inds=[[]for _ in self.files]
+		for si in range(len(self.files)):self._reset_shard(si)
+	def _reset_shard(self,si):max_phase=min(self.seq_len-1,max(0,self.num_tokens[si]-self.seq_len-1));phase=int(self.rng.integers(max_phase+1))if max_phase>0 else 0;num_sequences=(self.num_tokens[si]-1-phase)//self.seq_len;sequence_order=self.rng.permutation(num_sequences);self.start_inds[si]=(phase+sequence_order*self.seq_len).tolist()
+	def next_batch(self,global_tokens,grad_accum_steps):
+		device_tokens=global_tokens//(self.world_size*grad_accum_steps);device_batch_size=device_tokens//self.seq_len;remaining=np.array([len(s)for s in self.start_inds],dtype=np.float64);x=torch.empty((device_batch_size,self.seq_len),dtype=torch.int64);y=torch.empty((device_batch_size,self.seq_len),dtype=torch.int64)
+		for bi in range(device_batch_size):
+			total=remaining.sum()
+			if total<=0:
+				for si in range(len(self.files)):self._reset_shard(si)
+				remaining=np.array([len(s)for s in self.start_inds],dtype=np.float64);total=remaining.sum()
+			probs=remaining/total;si=int(self.rng.choice(len(self.files),p=probs));start_ind=self.start_inds[si].pop();remaining[si]-=1;mm=_get_shard_memmap(self.files[si]);window=torch.as_tensor(np.array(mm[start_ind:start_ind+self.seq_len+1],dtype=np.int64));x[bi]=window[:-1];y[bi]=window[1:]
+		return x.to(self.device,non_blocking=True),y.to(self.device,non_blocking=True)
+
+
+
+
+
+
+class RMSNorm(nn.Module):
+	def __init__(self,eps=None):super().__init__();self.eps=eps
+	def forward(self,x):return F.rms_norm(x,(x.size(-1),),eps=self.eps)
+class CastedLinear(nn.Linear):
+	def forward(self,x):w=self.weight.to(x.dtype);bias=self.bias.to(x.dtype)if self.bias is not None else None;return F.linear(x,w,bias)
+class Rotary(nn.Module):
+	def __init__(self,dim,base=1e4,train_seq_len=1024,rope_dims=0):super().__init__();self.dim=dim;self.base=base;self.train_seq_len=train_seq_len;self.rope_dims=rope_dims if rope_dims>0 else dim;inv_freq=1./base**(torch.arange(0,self.rope_dims,2,dtype=torch.float32)/self.rope_dims);self.register_buffer('inv_freq',inv_freq,persistent=False);self._seq_len_cached=0;self._cos_cached=None;self._sin_cached=None
+	def forward(self,seq_len,device,dtype):
+		if self._cos_cached is None or self._sin_cached is None or self._seq_len_cached!=seq_len or self._cos_cached.device!=device:
+			rd=self.rope_dims
+			if seq_len>self.train_seq_len:scale=seq_len/self.train_seq_len;new_base=self.base*scale**(rd/(rd-2));inv_freq=1./new_base**(torch.arange(0,rd,2,dtype=torch.float32,device=device)/rd)
+			else:inv_freq=self.inv_freq.to(device)
+			t=torch.arange(seq_len,device=device,dtype=inv_freq.dtype);freqs=torch.outer(t,inv_freq);self._cos_cached=freqs.cos()[None,:,None,:];self._sin_cached=freqs.sin()[None,:,None,:];self._seq_len_cached=seq_len
+		return self._cos_cached.to(dtype=dtype),self._sin_cached.to(dtype=dtype)
+def apply_rotary_emb(x,cos,sin,rope_dims=0):
+	if rope_dims>0 and rope_dims<x.size(-1):x_rope,x_pass=x[...,:rope_dims],x[...,rope_dims:];half=rope_dims//2;x1,x2=x_rope[...,:half],x_rope[...,half:];x_rope=torch.cat((x1*cos+x2*sin,x1*-sin+x2*cos),dim=-1);return torch.cat((x_rope,x_pass),dim=-1)
+	half=x.size(-1)//2;x1,x2=x[...,:half],x[...,half:];return torch.cat((x1*cos+x2*sin,x1*-sin+x2*cos),dim=-1)
+class CausalSelfAttention(nn.Module):
+	def __init__(self,dim,num_heads,num_kv_heads,rope_base,qk_gain_init,train_seq_len):
+		super().__init__()
+		if dim%num_heads!=0:raise ValueError('model_dim must be divisible by num_heads')
+		if num_heads%num_kv_heads!=0:raise ValueError('num_heads must be divisible by num_kv_heads')
+		self.num_heads=num_heads;self.num_kv_heads=num_kv_heads;self.head_dim=dim//num_heads
+		if self.head_dim%2!=0:raise ValueError('head_dim must be even for RoPE')
+		kv_dim=self.num_kv_heads*self.head_dim;self.c_q=CastedLinear(dim,dim,bias=False);self.c_k=CastedLinear(dim,kv_dim,bias=False);self.c_v=CastedLinear(dim,kv_dim,bias=False);self.proj=CastedLinear(dim,dim,bias=False);self.proj._zero_init=True;self.q_gain=nn.Parameter(torch.full((num_heads,),qk_gain_init,dtype=torch.float32));self.rope_dims=0;self.rotary=Rotary(self.head_dim,base=rope_base,train_seq_len=train_seq_len);self.use_xsa=False;self.gate_attn_out=False;self.gate_width=12;self.gate_attn_src="proj";self.attn_gate_proj=None
+	def _xsa_efficient(self,y,v):B,T,H,D=y.shape;Hkv=v.size(-2);group=H//Hkv;y_g=y.reshape(B,T,Hkv,group,D);vn=F.normalize(v,dim=-1).unsqueeze(-2);proj=(y_g*vn).sum(dim=-1,keepdim=True)*vn;return(y_g-proj).reshape(B,T,H,D)
+	def forward(self,x):
+		bsz,seqlen,dim=x.shape;q=self.c_q(x).reshape(bsz,seqlen,self.num_heads,self.head_dim);k=self.c_k(x).reshape(bsz,seqlen,self.num_kv_heads,self.head_dim);v=self.c_v(x).reshape(bsz,seqlen,self.num_kv_heads,self.head_dim);q=F.rms_norm(q,(q.size(-1),));k=F.rms_norm(k,(k.size(-1),));cos,sin=self.rotary(seqlen,x.device,q.dtype);q=apply_rotary_emb(q,cos,sin,self.rope_dims);k=apply_rotary_emb(k,cos,sin,self.rope_dims);q=q*self.q_gain.to(dtype=q.dtype)[None,None,:,None];y=flash_attn_3_func(q,k,v,causal=True)
+		if self.use_xsa:y=self._xsa_efficient(y,v)
+		if self.gate_attn_out and self.attn_gate_proj is not None:
+			gate_src=x
+			gate_in=gate_src[...,:self.gate_width].contiguous()
+			g=2.0*torch.sigmoid(self.attn_gate_proj(gate_in))
+			y=y*g[...,None]
+		y=y.reshape(bsz,seqlen,dim);return self.proj(y)
+class MLP(nn.Module):
+	def __init__(self,dim,mlp_mult):super().__init__();hidden=int(mlp_mult*dim);self.fc=CastedLinear(dim,hidden,bias=False);self.proj=CastedLinear(hidden,dim,bias=False);self.proj._zero_init=True
+	def forward(self,x):return self.proj(F.leaky_relu(self.fc(x),negative_slope=.5).square())
+class Block(nn.Module):
+	def __init__(self,dim,num_heads,num_kv_heads,mlp_mult,rope_base,qk_gain_init,train_seq_len,layer_idx=0,ln_scale=False):super().__init__();self.attn_norm=RMSNorm();self.mlp_norm=RMSNorm();self.attn=CausalSelfAttention(dim,num_heads,num_kv_heads,rope_base,qk_gain_init,train_seq_len);self.mlp=MLP(dim,mlp_mult);self.attn_scale=nn.Parameter(torch.ones(dim,dtype=torch.float32));self.mlp_scale=nn.Parameter(torch.ones(dim,dtype=torch.float32));self.resid_mix=nn.Parameter(torch.stack((torch.ones(dim),torch.zeros(dim))).float());self.ln_scale_factor=1./math.sqrt(layer_idx+1)if ln_scale else 1.;self.parallel=False
+	def forward(self,x,x0):
+		mix=self.resid_mix.to(dtype=x.dtype);x_in=mix[0][None,None,:]*x+mix[1][None,None,:]*x0;attn_out=self.attn(self.attn_norm(x_in)*self.ln_scale_factor)
+		if self.parallel:mlp_out=self.mlp(self.mlp_norm(x_in)*self.ln_scale_factor);x_out=x_in+self.attn_scale.to(dtype=x_in.dtype)[None,None,:]*attn_out+self.mlp_scale.to(dtype=x_in.dtype)[None,None,:]*mlp_out
+		else:x_out=x_in+self.attn_scale.to(dtype=x_in.dtype)[None,None,:]*attn_out;x_out=x_out+self.mlp_scale.to(dtype=x_out.dtype)[None,None,:]*self.mlp(self.mlp_norm(x_out)*self.ln_scale_factor)
+		return x_out
+
+class BigramHashEmbedding(nn.Module):
+	def __init__(self, bigram_vocab_size, bigram_dim, model_dim):
+		super().__init__()
+		self.bigram_vocab_size = bigram_vocab_size
+		self.embed = nn.Embedding(bigram_vocab_size, bigram_dim)
+		nn.init.zeros_(self.embed.weight)
+		if bigram_dim != model_dim:
+			self.proj = CastedLinear(bigram_dim, model_dim, bias=False)
+			nn.init.orthogonal_(self.proj.weight, gain=1.0)
+		else:
+			self.proj = None
+		self.scale = nn.Parameter(torch.tensor(0.05, dtype=torch.float32))
+	def bigram_hash(self, tokens):
+		t = tokens.to(torch.int32); mod = self.bigram_vocab_size - 1
+		out = torch.empty_like(t); out[..., 0] = mod
+		out[..., 1:] = torch.bitwise_xor(36313 * t[..., 1:], 27191 * t[..., :-1]) % mod
+		return out.long()
+	def forward(self, token_ids):
+		h = self.embed(self.bigram_hash(token_ids))
+		if self.proj is not None: h = self.proj(h)
+		return h * self.scale.to(dtype=h.dtype)
+
+class GPT(nn.Module):
+	def __init__(self,h):
+		super().__init__()
+		if h.logit_softcap<=.0:raise ValueError(f"logit_softcap must be positive, got {h.logit_softcap}")
+		self.tie_embeddings=h.tie_embeddings;self.tied_embed_init_std=h.tied_embed_init_std;self.logit_softcap=h.logit_softcap;self.tok_emb=nn.Embedding(h.vocab_size,h.embedding_dim);self.bigram=BigramHashEmbedding(h.bigram_vocab_size,h.bigram_dim,h.embedding_dim) if h.bigram_vocab_size>0 else None;self.smear_gate=CastedLinear(h.smear_gate_width,1,bias=False) if h.smear_gate_enabled else None;_=setattr(self.smear_gate,"_zero_init",True) if self.smear_gate is not None else None;self.smear_lambda=nn.Parameter(torch.zeros(1,dtype=torch.float32)) if h.smear_gate_enabled else None;self.smear_gate_width=h.smear_gate_width if h.smear_gate_enabled else 0;self.register_buffer('logit_temp',torch.tensor(1.0,dtype=torch.float32))
+		if h.embedding_dim!=h.model_dim:self.embed_proj=CastedLinear(h.embedding_dim,h.model_dim,bias=False);self.head_proj=CastedLinear(h.model_dim,h.embedding_dim,bias=False)
+		else:self.embed_proj=None;self.head_proj=None
+		self.num_encoder_layers=h.num_layers//2;self.num_decoder_layers=h.num_layers-self.num_encoder_layers;self.blocks=nn.ModuleList([Block(h.model_dim,h.num_heads,h.num_kv_heads,h.mlp_mult,h.rope_base,h.qk_gain_init,h.train_seq_len,layer_idx=i,ln_scale=h.ln_scale)for i in range(h.num_layers)])
+		if h.rope_dims>0:
+			head_dim=h.model_dim//h.num_heads
+			for block in self.blocks:block.attn.rope_dims=h.rope_dims;block.attn.rotary=Rotary(head_dim,base=h.rope_base,train_seq_len=h.train_seq_len,rope_dims=h.rope_dims)
+		self.final_norm=RMSNorm();self.lm_head=None if h.tie_embeddings else CastedLinear(h.embedding_dim,h.vocab_size,bias=False)
+		if self.lm_head is not None:self.lm_head._zero_init=True
+		if h.xsa_last_n>0:
+			for i in range(max(0,h.num_layers-h.xsa_last_n),h.num_layers):self.blocks[i].attn.use_xsa=True
+		if h.parallel_residual_start>=0:
+			for i in range(h.parallel_residual_start,h.num_layers):self.blocks[i].parallel=True
+		if h.gate_attn_out:
+			for block in self.blocks:
+				block.attn.gate_attn_out=True
+				block.attn.gate_width=h.gate_width
+				block.attn.gate_attn_src=h.gate_attn_src
+				block.attn.attn_gate_proj=CastedLinear(h.gate_width,h.num_heads,bias=False)
+				block.attn.attn_gate_proj._zero_init=True
+				block.attn.attn_gate_proj.float()
+		self.looping_active=False
+		if h.num_loops>0:
+			loop_seg=list(range(h.loop_start,h.loop_end+1));all_indices=list(range(h.loop_start))
+			for _ in range(h.num_loops+1):all_indices.extend(loop_seg)
+			all_indices.extend(range(h.loop_end+1,h.num_layers));num_enc=len(all_indices)//2;self.encoder_indices=all_indices[:num_enc];self.decoder_indices=all_indices[num_enc:]
+		else:self.encoder_indices=list(range(self.num_encoder_layers));self.decoder_indices=list(range(self.num_encoder_layers,h.num_layers))
+		self.num_skip_weights=min(len(self.encoder_indices),len(self.decoder_indices));self.skip_weights=nn.Parameter(torch.ones(self.num_skip_weights,h.model_dim,dtype=torch.float32));self.skip_gates=nn.Parameter(torch.zeros(self.num_skip_weights,h.model_dim,dtype=torch.float32))if h.skip_gates_enabled else None
+		self._init_weights()
+	def _init_weights(self):
+		if self.tie_embeddings:nn.init.normal_(self.tok_emb.weight,mean=.0,std=self.tied_embed_init_std)
+		for(name,module)in self.named_modules():
+			if isinstance(module,nn.Linear):
+				if getattr(module,'_zero_init',False):nn.init.zeros_(module.weight)
+				elif module.weight.ndim==2 and module.weight.shape[0]>=64 and module.weight.shape[1]>=64:nn.init.orthogonal_(module.weight,gain=1.)
+	def forward_logits(self,input_ids):
+		x=self.tok_emb(input_ids)
+		if self.bigram is not None:x=x+self.bigram(input_ids)
+		x=F.rms_norm(x,(x.size(-1),))
+		if self.smear_gate is not None:
+			x_prev=torch.cat([torch.zeros_like(x[:,:1]),x[:,:-1]],dim=1)
+			lam=self.smear_lambda.to(dtype=x.dtype)
+			g=torch.sigmoid(self.smear_gate(x[...,:self.smear_gate_width]))
+			x=x+lam*g*x_prev
+		if self.embed_proj is not None:x=self.embed_proj(x)
+		x0=x;skips=[];enc_iter=self.encoder_indices if self.looping_active else range(self.num_encoder_layers);dec_iter=self.decoder_indices if self.looping_active else range(self.num_encoder_layers,self.num_encoder_layers+self.num_decoder_layers)
+		for i in enc_iter:x=self.blocks[i](x,x0);skips.append(x)
+		for(skip_idx,i)in enumerate(dec_iter):
+			if skip_idx<self.num_skip_weights and skips:
+				scaled_skip=self.skip_weights[skip_idx].to(dtype=x.dtype)[None,None,:]*skips.pop()
+				if self.skip_gates is not None:g=torch.sigmoid(self.skip_gates[skip_idx].to(dtype=x.dtype))[None,None,:];x=torch.lerp(scaled_skip,x,g)
+				else:x=x+scaled_skip
+			x=self.blocks[i](x,x0)
+		x=self.final_norm(x)
+		if self.head_proj is not None:x=self.head_proj(x)
+		if self.tie_embeddings:logits_proj=F.linear(x,self.tok_emb.weight)
+		else:logits_proj=self.lm_head(x)
+		return self.logit_softcap*torch.tanh(logits_proj/self.logit_softcap)*self.logit_temp
+	def forward(self,input_ids,target_ids):logits=self.forward_logits(input_ids);return F.cross_entropy(logits.reshape(-1,logits.size(-1)).float(),target_ids.reshape(-1),reduction='mean')
+def classify_param(name):
+	if'tok_emb'in name or'lm_head'in name:return'embed'
+	if'.mlp.'in name:return'mlp'
+	if'.attn.'in name or'.proj.'in name and'.mlp.'not in name:return'attn'
+	return'other'
+@torch.compile
+def zeropower_via_newtonschulz5(G,steps=10,eps=1e-07):
+	a,b,c=3.4445,-4.775,2.0315;X=G.bfloat16();X/=X.norm()+eps;transposed=G.size(0)>G.size(1)
+	if transposed:X=X.T
+	for _ in range(steps):A=X@X.T;B=b*A+c*A@A;X=a*X+B@X
+	return X.T if transposed else X
+class Muon(torch.optim.Optimizer):
+	def __init__(self,params,lr,momentum,backend_steps,nesterov=True,weight_decay=.0,row_normalize=False):super().__init__(params,dict(lr=lr,momentum=momentum,backend_steps=backend_steps,nesterov=nesterov,weight_decay=weight_decay,row_normalize=row_normalize))
+	@torch.no_grad()
+	def step(self,closure=None):
+		loss=None
+		if closure is not None:
+			with torch.enable_grad():loss=closure()
+		distributed=dist.is_available()and dist.is_initialized();world_size=dist.get_world_size()if distributed else 1;rank=dist.get_rank()if distributed else 0
+		for group in self.param_groups:
+			params=group['params']
+			if not params:continue
+			lr=group['lr'];momentum=group['momentum'];backend_steps=group['backend_steps'];nesterov=group['nesterov'];total_params=sum(int(p.numel())for p in params);updates_flat=torch.zeros(total_params,device=params[0].device,dtype=torch.bfloat16);curr=0
+			for(i,p)in enumerate(params):
+				if i%world_size==rank and p.grad is not None:
+					g=p.grad;state=self.state[p]
+					if'momentum_buffer'not in state:state['momentum_buffer']=torch.zeros_like(g)
+					buf=state['momentum_buffer'];buf.mul_(momentum).add_(g)
+					if nesterov:g=g.add(buf,alpha=momentum)
+					if group.get('row_normalize',False):row_norms=g.float().norm(dim=-1,keepdim=True).clamp_min(1e-07);g=g/row_norms.to(g.dtype)
+					g=zeropower_via_newtonschulz5(g,steps=backend_steps);g*=max(1,g.size(0)/g.size(1))**.5;updates_flat[curr:curr+p.numel()]=g.reshape(-1)
+				curr+=p.numel()
+			if distributed:dist.all_reduce(updates_flat,op=dist.ReduceOp.SUM)
+			wd=group.get('weight_decay',.0);curr=0
+			for p in params:
+				if wd>.0:p.data.mul_(1.-lr*wd)
+				g=updates_flat[curr:curr+p.numel()].view_as(p).to(dtype=p.dtype);p.add_(g,alpha=-lr);curr+=p.numel()
+		return loss
+CONTROL_TENSOR_NAME_PATTERNS=tuple(pattern for pattern in os.environ.get('CONTROL_TENSOR_NAME_PATTERNS','attn_scale,attn_scales,mlp_scale,mlp_scales,resid_mix,resid_mixes,q_gain,skip_weight,skip_weights,skip_gates,bigram.scale,smear_lambda,readout_delta,attn_gate_proj,smear_gate').split(',')if pattern)
+class Optimizers:
+	def __init__(self,h,base_model):
+		block_named_params=list(base_model.blocks.named_parameters());matrix_params=[p for(name,p)in block_named_params if p.ndim==2 and not any(pattern in name for pattern in CONTROL_TENSOR_NAME_PATTERNS)];scalar_params=[p for(name,p)in block_named_params if p.ndim<2 or any(pattern in name for pattern in CONTROL_TENSOR_NAME_PATTERNS)]
+		if base_model.skip_weights.numel()>0:scalar_params.append(base_model.skip_weights)
+		top_named=dict(base_model.named_parameters())
+		for name,p in top_named.items():
+			if "blocks." in name:continue
+			if name=="tok_emb.weight":continue
+			if "bigram.embed" in name:continue  # tok group below
+			elif "bigram.proj" in name:matrix_params.append(p)
+			elif "bigram.scale" in name:scalar_params.append(p)
+			elif "smear_gate" in name and "lambda" not in name:matrix_params.append(p)
+			elif "smear_lambda" in name:scalar_params.append(p)
+		if base_model.skip_gates is not None and base_model.skip_gates.numel()>0:scalar_params.append(base_model.skip_gates)
+		token_lr=h.tied_embed_lr if h.tie_embeddings else h.embed_lr;tok_params=[{'params':[base_model.tok_emb.weight],'lr':token_lr,'base_lr':token_lr}];self.optimizer_tok=torch.optim.AdamW(tok_params,betas=(h.beta1,h.beta2),eps=h.adam_eps,weight_decay=h.embed_wd,fused=True);self.optimizer_muon=Muon(matrix_params,lr=h.matrix_lr,momentum=h.muon_momentum,backend_steps=h.muon_backend_steps,weight_decay=h.muon_wd,row_normalize=h.muon_row_normalize)
+		for group in self.optimizer_muon.param_groups:group['base_lr']=h.matrix_lr
+		self.optimizer_scalar=torch.optim.AdamW([{'params':scalar_params,'lr':h.scalar_lr,'base_lr':h.scalar_lr}],betas=(h.beta1,h.beta2),eps=h.adam_eps,weight_decay=h.adam_wd,fused=True);self.optimizers=[self.optimizer_tok,self.optimizer_muon,self.optimizer_scalar]
+		if base_model.lm_head is not None:self.optimizer_head=torch.optim.Adam([{'params':[base_model.lm_head.weight],'lr':h.head_lr,'base_lr':h.head_lr}],betas=(h.beta1,h.beta2),eps=h.adam_eps,fused=True);self.optimizers.insert(1,self.optimizer_head)
+		else:self.optimizer_head=None
+	def __iter__(self):return iter(self.optimizers)
+	def zero_grad_all(self):
+		for opt in self.optimizers:opt.zero_grad(set_to_none=True)
+	def step(self):
+		for opt in self.optimizers:opt.step()
+		self.zero_grad_all()
+def restore_fp32_params(model):
+	for module in model.modules():
+		if isinstance(module,CastedLinear):module.float()
+	for(name,param)in model.named_parameters():
+		if(param.ndim<2 or any(pattern in name for pattern in CONTROL_TENSOR_NAME_PATTERNS))and param.dtype!=torch.float32:param.data=param.data.float()
+def collect_hessians(model,train_loader,h,device,n_calibration_batches=64):
+	hessians={};hooks=[]
+	def make_hook(name):
+		def hook_fn(module,inp,out):
+			x=inp[0].detach().float()
+			if x.ndim==3:x=x.reshape(-1,x.shape[-1])
+			if name not in hessians:hessians[name]=torch.zeros(x.shape[1],x.shape[1],dtype=torch.float32,device=device)
+			hessians[name].addmm_(x.T,x)
+		return hook_fn
+	for(name,module)in model.named_modules():
+		if isinstance(module,CastedLinear)and module.weight.numel()>65536:
+			cat=classify_param(name+'.weight')
+			if cat in('mlp','attn'):hooks.append(module.register_forward_hook(make_hook(name+'.weight')))
+	if model.tie_embeddings:
+		hook_module=model.head_proj if model.head_proj is not None else model.final_norm
+		def make_output_hook(name):
+			def hook_fn(module,inp,out):
+				x=out.detach().float()
+				if x.ndim==3:x=x.reshape(-1,x.shape[-1])
+				if name not in hessians:hessians[name]=torch.zeros(x.shape[1],x.shape[1],dtype=torch.float32,device=device)
+				hessians[name].addmm_(x.T,x)
+			return hook_fn
+		hooks.append(hook_module.register_forward_hook(make_output_hook('tok_emb.weight')))
+	model.eval()
+	with torch.no_grad():
+		for _ in range(n_calibration_batches):x,_=train_loader.next_batch(h.train_batch_tokens,h.grad_accum_steps);model.forward_logits(x)
+	for hook in hooks:hook.remove()
+	for name in hessians:hessians[name]=hessians[name].cpu()/n_calibration_batches
+	return hessians
+def gptq_quantize_weight(w,H,clip_sigmas=3.,clip_range=63,block_size=128):
+	W_orig=w.float().clone();rows,cols=W_orig.shape;H=H.float().clone();dead=torch.diag(H)==0;H[dead,dead]=1;damp=.01*H.diag().mean();H.diagonal().add_(damp);perm=torch.argsort(H.diag(),descending=True);invperm=torch.argsort(perm);W_perm=W_orig[:,perm].clone();W_perm[:,dead[perm]]=0;H=H[perm][:,perm];Hinv=torch.cholesky_inverse(torch.linalg.cholesky(H));Hinv=torch.linalg.cholesky(Hinv,upper=True);row_std=W_orig.std(dim=1);s=(clip_sigmas*row_std/clip_range).clamp_min(1e-10).to(torch.float16);sf=s.float();Q=torch.zeros(rows,cols,dtype=torch.int8);W_work=W_perm.clone()
+	for i1 in range(0,cols,block_size):
+		i2=min(i1+block_size,cols);W_block=W_work[:,i1:i2].clone();Hinv_block=Hinv[i1:i2,i1:i2];Err=torch.zeros(rows,i2-i1)
+		for j in range(i2-i1):w_col=W_block[:,j];d=Hinv_block[j,j];q_col=torch.clamp(torch.round(w_col/sf),-clip_range,clip_range);Q[:,i1+j]=q_col.to(torch.int8);err=(w_col-q_col.float()*sf)/d;Err[:,j]=err;W_block[:,j:]-=err.unsqueeze(1)*Hinv_block[j,j:].unsqueeze(0)
+		if i2<cols:W_work[:,i2:]-=Err@Hinv[i1:i2,i2:]
+	return Q[:,invperm],s
+def gptq_mixed_quantize(state_dict,hessians,h):
+	result={};meta={}
+	_FORCE_INT8_SMALL=('bigram.proj','attn_gate_proj','smear_gate.weight')
+	_FORCE_INT8_PT=('attn_scale','mlp_scale','resid_mix','skip_gates','skip_weights')
+	for(name,tensor)in state_dict.items():
+		t=tensor.detach().cpu().contiguous()
+		if not t.is_floating_point()or t.numel()<=65536:
+			if t.is_floating_point()and t.numel()>1 and any(k in name for k in _FORCE_INT8_PT):
+				ma=t.abs().max().clamp_min(1e-10);sc=(ma/127.).float();q=torch.clamp(torch.round(t/sc),-127,127).to(torch.int8)
+				result[name+'.q_pt']=q;result[name+'.scale_pt']=sc;meta[name]='pertensor int8 (control)';continue
+			if t.is_floating_point()and t.ndim==2 and any(k in name for k in _FORCE_INT8_SMALL):
+				rm=t.abs().amax(dim=1,keepdim=True).clamp_min(1e-10);s=(rm/127.).squeeze(-1).to(torch.float16);sf=s.float().view(-1,1)
+				q=torch.clamp(torch.round(t/sf),-127,127).to(torch.int8);result[name+'.q']=q;result[name+'.scale']=s;meta[name]='simple int8 (small matrix)';continue
+			result[name]=t.to(torch.float16)if t.is_floating_point()else t;meta[name]='passthrough (float16)';continue
+		if 'bigram.embed' in name:
+			bits=6;qmax=2**(bits-1)-1;row_max=t.abs().amax(dim=1,keepdim=True).clamp_min(1e-10);s=(row_max/qmax).squeeze(-1).to(torch.float16);sf=s.float().view(-1,1);q=torch.clamp(torch.round(t/sf),-qmax,qmax).to(torch.int8);result[name+'.q']=q;result[name+'.scale']=s;meta[name]=f'simple int{bits} (bigram embed)';continue
+		cs=h.embed_clip_sigmas if'tok_emb'in name else h.matrix_clip_sigmas;bits=h.embed_bits if'tok_emb'in name else h.matrix_bits;q,s=gptq_quantize_weight(t,hessians[name],clip_sigmas=cs,clip_range=2**(bits-1)-1);result[name+'.q']=q;result[name+'.scale']=s;meta[name]=f"gptq (int{bits})"
+	categories=collections.defaultdict(set)
+	for(name,cat)in meta.items():short=re.sub('\\.\\d+$','',re.sub('blocks\\.\\d+','blocks',name));categories[cat].add(short)
+	log('Quantized weights:')
+	for cat in sorted(categories):log(f"  {cat}: {", ".join(sorted(categories[cat]))}")
+	return result,meta
+def dequantize_mixed(result,meta,template_sd):
+	out={}
+	for(name,orig)in template_sd.items():
+		info=meta.get(name)
+		if info is None:continue
+		orig_dtype=orig.dtype
+		if'passthrough'in info:
+			t=result[name]
+			if t.dtype==torch.float16 and orig_dtype in(torch.float32,torch.bfloat16):t=t.to(orig_dtype)
+			out[name]=t;continue
+		if'pertensor'in info:
+			q=result[name+'.q_pt'];sc=result[name+'.scale_pt']
+			out[name]=(q.float()*sc.float()).to(orig_dtype);continue
+		q,s=result[name+'.q'],result[name+'.scale']
+		if s.ndim>0:out[name]=(q.float()*s.float().view(q.shape[0],*[1]*(q.ndim-1))).to(orig_dtype)
+		else:out[name]=(q.float()*float(s.item())).to(orig_dtype)
+	return out
+_BSHF_MAGIC=b'BSHF'
+def _byte_shuffle(data,stride=2):
+	if stride<=1 or len(data)<stride:return data
+	src=np.frombuffer(data,dtype=np.uint8);n=len(src);out=np.empty(n,dtype=np.uint8);dest_off=0
+	for pos in range(stride):chunk=src[pos::stride];out[dest_off:dest_off+len(chunk)]=chunk;dest_off+=len(chunk)
+	return _BSHF_MAGIC+bytes([stride])+out.tobytes()
+def _byte_unshuffle(data):
+	if len(data)<5 or data[:4]!=_BSHF_MAGIC:return data
+	stride=data[4]
+	if stride<2:return data[5:]
+	payload=np.frombuffer(data,dtype=np.uint8,offset=5);n=len(payload);out=np.empty(n,dtype=np.uint8);src_off=0
+	for pos in range(stride):chunk_len=n//stride+(1 if pos<n%stride else 0);out[pos::stride][:chunk_len]=payload[src_off:src_off+chunk_len];src_off+=chunk_len
+	return out.tobytes()
+def _compress(data,compressor):
+	data=_byte_shuffle(data)
+	if compressor=='lzma':return lzma.compress(data,preset=6)
+	elif compressor=='brotli':import brotli;return brotli.compress(data,quality=11)
+	raise ValueError(f"Unknown compressor: {compressor!r}")
+def _decompress(data,compressor):
+	if compressor=='lzma':raw=lzma.decompress(data)
+	elif compressor=='brotli':import brotli;raw=brotli.decompress(data)
+	else:raise ValueError(f"Unknown compressor: {compressor!r}")
+	raw=_byte_unshuffle(raw);return raw
+def serialize(h,base_model,code):
+	code_bytes=len(code.encode('utf-8'))
+	if h.is_main_process:torch.save(base_model.state_dict(),h.model_path);model_bytes=os.path.getsize(h.model_path);log(f"Serialized model: {model_bytes} bytes");log(f"Code size: {code_bytes} bytes")
+	sd_cpu={k:v.detach().cpu()for(k,v)in base_model.state_dict().items()};device=torch.device('cuda',h.local_rank);log('GPTQ:collecting Hessians from calibration data...');t0=time.perf_counter();calib_loader=ShuffledSequenceLoader(h,device);hessians=collect_hessians(base_model,calib_loader,h,device,n_calibration_batches=h.gptq_calibration_batches);log(f"GPTQ:collected {len(hessians)} Hessians in {time.perf_counter()-t0:.1f}s");quant_result,quant_meta=gptq_mixed_quantize(sd_cpu,hessians,h);quant_buf=io.BytesIO();torch.save({'w':quant_result,'m':quant_meta},quant_buf);quant_raw=quant_buf.getvalue();quant_blob=_compress(quant_raw,h.compressor);quant_file_bytes=len(quant_blob);bytes_total=quant_file_bytes+code_bytes
+	if h.is_main_process:
+		with open(h.quantized_model_path,'wb')as f:f.write(quant_blob)
+		log(f"Serialized model quantized+{h.compressor}: {quant_file_bytes} bytes");log(f"Total submission size quantized+{h.compressor}: {bytes_total} bytes")
+	return bytes_total,quant_file_bytes
+def deserialize(h,device):
+	eval_model=GPT(h).to(device).bfloat16();restore_fp32_params(eval_model);sd_cpu={k:v.detach().cpu()for(k,v)in eval_model.state_dict().items()}
+	with open(h.quantized_model_path,'rb')as f:quant_blob_disk=f.read()
+	quant_state=torch.load(io.BytesIO(_decompress(quant_blob_disk,h.compressor)),map_location='cpu');deq_state=dequantize_mixed(quant_state['w'],quant_state['m'],sd_cpu);eval_model.load_state_dict(deq_state,strict=True);return eval_model
+def _loss_bpb(loss_sum,token_count,byte_count):val_loss=(loss_sum/token_count).item();val_bpb=val_loss/math.log(2.)*(token_count.item()/byte_count.item());return val_loss,val_bpb
+def eval_val(h,device,val_data,model):
+	seq_len=h.eval_seq_len;local_batch_tokens=h.val_batch_tokens//(h.world_size*h.grad_accum_steps)
+	if local_batch_tokens<seq_len:raise ValueError(f"VAL_BATCH_SIZE must provide at least one sequence per rank; got VAL_BATCH_SIZE={h.val_batch_tokens}, WORLD_SIZE={h.world_size}, GRAD_ACCUM_STEPS={h.grad_accum_steps}, seq_len={seq_len}")
+	local_batch_seqs=local_batch_tokens//seq_len;total_seqs=(val_data.val_tokens.numel()-1)//seq_len;seq_start=total_seqs*h.rank//h.world_size;seq_end=total_seqs*(h.rank+1)//h.world_size;val_loss_sum=torch.zeros((),device=device,dtype=torch.float64);val_token_count=torch.zeros((),device=device,dtype=torch.float64);val_byte_count=torch.zeros((),device=device,dtype=torch.float64);model.eval()
+	with torch.inference_mode():
+		for batch_seq_start in range(seq_start,seq_end,local_batch_seqs):
+			batch_seq_end=min(batch_seq_start+local_batch_seqs,seq_end);raw_start=batch_seq_start*seq_len;raw_end=batch_seq_end*seq_len+1;local=val_data.val_tokens[raw_start:raw_end].to(device=device,dtype=torch.int64,non_blocking=True);x=local[:-1].reshape(-1,seq_len);y=local[1:].reshape(-1,seq_len)
+			with torch.autocast(device_type='cuda',dtype=torch.bfloat16,enabled=True):batch_loss=model(x,y).detach()
+			batch_token_count=float(y.numel());val_loss_sum+=batch_loss.to(torch.float64)*batch_token_count;val_token_count+=batch_token_count;prev_ids=x.reshape(-1);tgt_ids=y.reshape(-1);token_bytes=val_data.base_bytes_lut[tgt_ids].to(dtype=torch.int16);token_bytes+=(val_data.has_leading_space_lut[tgt_ids]&~val_data.is_boundary_token_lut[prev_ids]).to(dtype=torch.int16);val_byte_count+=token_bytes.to(torch.float64).sum()
+	if dist.is_available()and dist.is_initialized():dist.all_reduce(val_loss_sum,op=dist.ReduceOp.SUM);dist.all_reduce(val_token_count,op=dist.ReduceOp.SUM);dist.all_reduce(val_byte_count,op=dist.ReduceOp.SUM)
+	model.train();return _loss_bpb(val_loss_sum,val_token_count,val_byte_count)
+def eval_val_sliding(h,device,val_data,base_model,batch_seqs=32):
+	base_model.eval();logits_fn=torch.compile(base_model.forward_logits,dynamic=False,fullgraph=True);seq_len=h.eval_seq_len;context_size=seq_len-h.eval_stride;total_tokens=val_data.val_tokens.numel()-1;window_starts=[ws for ws in range(0,total_tokens,h.eval_stride)if ws+context_size<total_tokens];total_windows=len(window_starts);my_s=total_windows*h.rank//h.world_size;my_e=total_windows*(h.rank+1)//h.world_size;my_windows=window_starts[my_s:my_e];loss_sum=torch.zeros((),device=device,dtype=torch.float64);token_count=torch.zeros((),device=device,dtype=torch.float64);byte_count=torch.zeros((),device=device,dtype=torch.float64)
+	with torch.inference_mode():
+		for bi in range(0,len(my_windows),batch_seqs):
+			batch_ws=my_windows[bi:bi+batch_seqs];bsz=len(batch_ws);x_batch=torch.zeros(bsz,seq_len,dtype=torch.int64,device=device);y_batch=torch.zeros(bsz,seq_len,dtype=torch.int64,device=device);wlens=[]
+			for(i,ws)in enumerate(batch_ws):we=min(ws+seq_len,total_tokens);wlen=we-ws;wlens.append(wlen);chunk=val_data.val_tokens[ws:we+1].to(dtype=torch.int64,device=device);x_batch[i,:wlen]=chunk[:-1];y_batch[i,:wlen]=chunk[1:]
+			with torch.autocast(device_type='cuda',dtype=torch.bfloat16):logits=logits_fn(x_batch)
+			nll=F.cross_entropy(logits.reshape(-1,logits.size(-1)).float(),y_batch.reshape(-1),reduction='none').reshape(bsz,seq_len)
+			for(i,ws)in enumerate(batch_ws):wlen=wlens[i];s=0 if ws==0 else context_size;scored_nll=nll[i,s:wlen].to(torch.float64);loss_sum+=scored_nll.sum();token_count+=float(wlen-s);tgt=y_batch[i,s:wlen];prev=x_batch[i,s:wlen];tb=val_data.base_bytes_lut[tgt].to(torch.float64);tb+=(val_data.has_leading_space_lut[tgt]&~val_data.is_boundary_token_lut[prev]).to(torch.float64);byte_count+=tb.sum()
+	if dist.is_available()and dist.is_initialized():dist.all_reduce(loss_sum,op=dist.ReduceOp.SUM);dist.all_reduce(token_count,op=dist.ReduceOp.SUM);dist.all_reduce(byte_count,op=dist.ReduceOp.SUM)
+	base_model.train();return _loss_bpb(loss_sum,token_count,byte_count)
+def eval_val_ttt(h,device,val_data,base_model,batch_seqs=32):
+	rank=h.rank;world_size=h.world_size;seq_len=h.eval_seq_len;stride=h.eval_stride;total_tokens=val_data.val_tokens.numel()-1;ttt_chunk=h.ttt_chunk_tokens;context_size=seq_len-stride;window_starts=[ws for ws in range(0,total_tokens,stride)if ws+context_size<total_tokens];num_chunks=(total_tokens+ttt_chunk-1)//ttt_chunk;chunk_windows=[[]for _ in range(num_chunks)]
+	for ws in window_starts:wlen=min(ws+seq_len,total_tokens)-ws;s=0 if ws==0 else context_size;scored_start=ws+s;ci=min(scored_start//ttt_chunk,num_chunks-1);chunk_windows[ci].append(ws)
+	log(f"ttt:start chunks={num_chunks} ttt_lr={h.ttt_lr} ttt_epochs={h.ttt_epochs}");compiled_logits=torch.compile(base_model.forward_logits,dynamic=False,fullgraph=True);loss_sum=torch.zeros((),device=device,dtype=torch.float64);token_count=torch.zeros((),device=device,dtype=torch.float64);byte_count=torch.zeros((),device=device,dtype=torch.float64);ttt_params=[p for p in base_model.parameters()]
+	for p in ttt_params:p.requires_grad_(True)
+	optimizer=torch.optim.SGD(ttt_params,lr=h.ttt_lr,momentum=h.ttt_momentum)
+	for ci in range(num_chunks):
+		windows=chunk_windows[ci]
+		if not windows:continue
+		chunk_start=ci*ttt_chunk;chunk_end=min((ci+1)*ttt_chunk,total_tokens);my_s=len(windows)*rank//world_size;my_e=len(windows)*(rank+1)//world_size;my_windows=windows[my_s:my_e];base_model.eval()
+		with torch.no_grad():
+			for bi in range(0,len(my_windows),batch_seqs):
+				batch_ws=my_windows[bi:bi+batch_seqs];bsz=len(batch_ws);x_batch=torch.zeros(bsz,seq_len,dtype=torch.int64,device=device);y_batch=torch.zeros(bsz,seq_len,dtype=torch.int64,device=device);wlens=[]
+				for(i,ws)in enumerate(batch_ws):we=min(ws+seq_len,total_tokens);wlen=we-ws;wlens.append(wlen);chunk_tok=val_data.val_tokens[ws:we+1].to(dtype=torch.int64,device=device);x_batch[i,:wlen]=chunk_tok[:-1];y_batch[i,:wlen]=chunk_tok[1:]
+				with torch.autocast(device_type='cuda',dtype=torch.bfloat16):logits=compiled_logits(x_batch)
+				nll=F.cross_entropy(logits.reshape(-1,logits.size(-1)).float(),y_batch.reshape(-1),reduction='none').reshape(bsz,seq_len)
+				for(i,ws)in enumerate(batch_ws):wlen=wlens[i];s=0 if ws==0 else context_size;scored_nll=nll[i,s:wlen].to(torch.float64);loss_sum+=scored_nll.sum();token_count+=float(wlen-s);tgt=y_batch[i,s:wlen];prev=x_batch[i,s:wlen];tb=val_data.base_bytes_lut[tgt].to(torch.float64);tb+=(val_data.has_leading_space_lut[tgt]&~val_data.is_boundary_token_lut[prev]).to(torch.float64);byte_count+=tb.sum()
+		is_last_chunk=ci==num_chunks-1
+		if not is_last_chunk and h.ttt_epochs>0:
+			base_model.train();chunk_seqs=(chunk_end-chunk_start)//seq_len
+			if chunk_seqs>0:
+				cos_lr=h.ttt_lr*.5*(1.+math.cos(math.pi*ci/max(num_chunks-1,1)))
+				for pg in optimizer.param_groups:pg['lr']=cos_lr
+				my_seq_s=chunk_seqs*rank//world_size;my_seq_e=chunk_seqs*(rank+1)//world_size;my_chunk_seqs=my_seq_e-my_seq_s
+				for _ep in range(h.ttt_epochs):
+					for bs in range(0,my_chunk_seqs,batch_seqs):
+						be=min(bs+batch_seqs,my_chunk_seqs);actual_bs=my_seq_s+bs;start_tok=chunk_start+actual_bs*seq_len;end_tok=chunk_start+(my_seq_s+be)*seq_len+1
+						if end_tok>val_data.val_tokens.numel():continue
+						local=val_data.val_tokens[start_tok:end_tok].to(device=device,dtype=torch.int64);x=local[:-1].reshape(-1,seq_len);y=local[1:].reshape(-1,seq_len);optimizer.zero_grad(set_to_none=True)
+						with torch.autocast(device_type='cuda',dtype=torch.bfloat16):loss=base_model(x,y)
+						loss.backward()
+						if world_size>1:
+							for p in ttt_params:
+								if p.grad is not None:dist.all_reduce(p.grad,op=dist.ReduceOp.AVG)
+						torch.nn.utils.clip_grad_norm_(ttt_params,1.);optimizer.step()
+	if dist.is_available()and dist.is_initialized():dist.all_reduce(loss_sum,op=dist.ReduceOp.SUM);dist.all_reduce(token_count,op=dist.ReduceOp.SUM);dist.all_reduce(byte_count,op=dist.ReduceOp.SUM)
+	for p in base_model.parameters():p.requires_grad_(True)
+	base_model.eval();return _loss_bpb(loss_sum,token_count,byte_count)
+def timed_eval(label,fn,*args,**kwargs):torch.cuda.synchronize();t0=time.perf_counter();val_loss,val_bpb=fn(*args,**kwargs);torch.cuda.synchronize();elapsed_ms=1e3*(time.perf_counter()-t0);log(f"{label} val_loss:{val_loss:.8f} val_bpb:{val_bpb:.8f} eval_time:{elapsed_ms:.0f}ms");return val_loss,val_bpb
+def train_model(h,device,val_data):
+	base_model=GPT(h).to(device).bfloat16();restore_fp32_params(base_model);compiled_model=torch.compile(base_model,dynamic=False,fullgraph=True)
+	if h.distributed:model=DDP(compiled_model,device_ids=[h.local_rank],broadcast_buffers=False)
+	else:model=compiled_model
+	log(f"model_params:{sum(p.numel()for p in base_model.parameters())}");optimizers=Optimizers(h,base_model);train_loader=ShuffledSequenceLoader(h,device);max_wallclock_ms=1e3*h.max_wallclock_seconds if h.max_wallclock_seconds>0 else None
+	if max_wallclock_ms is not None:max_wallclock_ms-=h.gptq_reserve_seconds*1e3;log(f"gptq:reserving {h.gptq_reserve_seconds:.0f}s, effective={max_wallclock_ms:.0f}ms")
+	def training_frac(step,elapsed_ms):
+		if max_wallclock_ms is None:return step/max(h.iterations,1)
+		return elapsed_ms/max(max_wallclock_ms,1e-09)
+	def lr_mul(frac):
+		if h.warmdown_frac<=0:return 1.
+		if frac>=1.-h.warmdown_frac:return max((1.-frac)/h.warmdown_frac,h.min_lr)
+		return 1.
+	def step_fn(step,lr_scale):
+		optimizers.zero_grad_all();train_loss=torch.zeros((),device=device)
+		for micro_step in range(h.grad_accum_steps):
+			if h.distributed:model.require_backward_grad_sync=micro_step==h.grad_accum_steps-1
+			x,y=train_loader.next_batch(h.train_batch_tokens,h.grad_accum_steps)
+			with torch.autocast(device_type='cuda',dtype=torch.bfloat16,enabled=True):loss=model(x,y)
+			train_loss+=loss.detach();(loss/h.grad_accum_steps).backward()
+		train_loss/=h.grad_accum_steps;frac=min(step/h.muon_momentum_warmup_steps,1.)if h.muon_momentum_warmup_steps>0 else 1.;muon_momentum=(1-frac)*h.muon_momentum_warmup_start+frac*h.muon_momentum
+		for group in optimizers.optimizer_muon.param_groups:group['momentum']=muon_momentum
+		for opt in optimizers:
+			for group in opt.param_groups:group['lr']=group['base_lr']*lr_scale
+		if h.grad_clip_norm>0:torch.nn.utils.clip_grad_norm_(base_model.parameters(),h.grad_clip_norm)
+		optimizers.step();return train_loss
+	if h.warmup_steps>0:
+		initial_model_state={name:tensor.detach().cpu().clone()for(name,tensor)in base_model.state_dict().items()};initial_optimizer_states=[copy.deepcopy(opt.state_dict())for opt in optimizers];model.train()
+		for warmup_step in range(h.warmup_steps):
+			step_fn(warmup_step,1.)
+			if warmup_step<=5 or(warmup_step+1)%10==0 or warmup_step+1==h.warmup_steps:log(f"warmup_step: {warmup_step+1}/{h.warmup_steps}")
+		if h.num_loops>0:
+			base_model.looping_active=True;log(f"loop_warmup:enabled encoder:{base_model.encoder_indices} decoder:{base_model.decoder_indices}")
+			for warmup_step in range(h.warmup_steps):
+				step_fn(warmup_step,1.)
+				if warmup_step<=5 or(warmup_step+1)%10==0 or warmup_step+1==h.warmup_steps:log(f"loop_warmup_step: {warmup_step+1}/{h.warmup_steps}")
+			base_model.looping_active=False
+		base_model.load_state_dict(initial_model_state,strict=True)
+		for(opt,state)in zip(optimizers,initial_optimizer_states,strict=True):opt.load_state_dict(state)
+		optimizers.zero_grad_all()
+		if h.distributed:model.require_backward_grad_sync=True
+		train_loader=ShuffledSequenceLoader(h,device)
+	ema_state={name:t.detach().float().clone()for(name,t)in base_model.state_dict().items()};ema_decay=h.ema_decay;training_time_ms=.0;stop_after_step=None;torch.cuda.synchronize();t0=time.perf_counter();step=0
+	while True:
+		last_step=step==h.iterations or stop_after_step is not None and step>=stop_after_step;should_validate=last_step or h.val_loss_every>0 and step%h.val_loss_every==0
+		if should_validate:torch.cuda.synchronize();training_time_ms+=1e3*(time.perf_counter()-t0);val_loss,val_bpb=eval_val(h,device,val_data,model);log(f"{step}/{h.iterations} val_loss: {val_loss:.4f} val_bpb: {val_bpb:.4f}");torch.cuda.synchronize();t0=time.perf_counter()
+		if last_step:
+			if stop_after_step is not None and step<h.iterations:log(f"stopping_early: wallclock_cap train_time: {training_time_ms:.0f}ms step: {step}/{h.iterations}")
+			break
+		elapsed_ms=training_time_ms+1e3*(time.perf_counter()-t0);frac=training_frac(step,elapsed_ms);scale=lr_mul(frac)
+		if h.num_loops>0 and not base_model.looping_active and frac>=h.enable_looping_at:base_model.looping_active=True;log(f"layer_loop:enabled step:{step} frac:{frac:.3f} encoder:{base_model.encoder_indices} decoder:{base_model.decoder_indices}")
+		train_loss=step_fn(step,scale)
+		with torch.no_grad():
+			for(name,t)in base_model.state_dict().items():ema_state[name].mul_(ema_decay).add_(t.detach().float(),alpha=1.-ema_decay)
+		step+=1;approx_training_time_ms=training_time_ms+1e3*(time.perf_counter()-t0);should_log_train=h.train_log_every>0 and(step<=5 or step%h.train_log_every==0 or stop_after_step is not None)
+		if should_log_train:tok_per_sec=step*h.train_batch_tokens/(approx_training_time_ms/1e3);log(f"{step}/{h.iterations} train_loss: {train_loss.item():.4f} train_time: {approx_training_time_ms/60000:.1f}m tok/s: {tok_per_sec:.0f}")
+		reached_cap=max_wallclock_ms is not None and approx_training_time_ms>=max_wallclock_ms
+		if h.distributed and max_wallclock_ms is not None:reached_cap_tensor=torch.tensor(int(reached_cap),device=device);dist.all_reduce(reached_cap_tensor,op=dist.ReduceOp.MAX);reached_cap=bool(reached_cap_tensor.item())
+		if stop_after_step is None and reached_cap:stop_after_step=step
+	log(f"peak memory allocated: {torch.cuda.max_memory_allocated()//1024//1024} MiB reserved: {torch.cuda.max_memory_reserved()//1024//1024} MiB");log('ema:applying EMA weights');current_state=base_model.state_dict();avg_state={name:t.to(dtype=current_state[name].dtype)for(name,t)in ema_state.items()};base_model.load_state_dict(avg_state,strict=True);return base_model,compiled_model
+def train_and_eval(h,device):
+	random.seed(h.seed);np.random.seed(h.seed);torch.manual_seed(h.seed);torch.cuda.manual_seed_all(h.seed);val_data=ValidationData(h,device);log(f"train_shards: {len(list(Path(h.datasets_dir).resolve().glob("fineweb_train_*.bin")))}");log(f"val_tokens: {val_data.val_tokens.numel()-1}");base_model,compiled_model=train_model(h,device,val_data);torch._dynamo.reset();timed_eval('pre-quantization post-ema',eval_val,h,device,val_data,compiled_model);serialize(h,base_model,Path(__file__).read_text(encoding='utf-8'))
+	if h.distributed:dist.barrier()
+	eval_model=deserialize(h,device)
+	if h.num_loops>0:eval_model.looping_active=True
+	compiled_model=torch.compile(eval_model,dynamic=False,fullgraph=True);timed_eval('quantized',eval_val,h,device,val_data,compiled_model)
+	if h.sliding_window_enabled:timed_eval('quantized_sliding_window',eval_val_sliding,h,device,val_data,eval_model)
+	if h.ttt_enabled and h.sliding_window_enabled:
+		del eval_model,compiled_model;torch._dynamo.reset();torch.cuda.empty_cache();ttt_model=deserialize(h,device)
+		if h.num_loops>0:ttt_model.looping_active=True
+		timed_eval('quantized_ttt',eval_val_ttt,h,device,val_data,ttt_model);del ttt_model
+	if h.etlb_enabled and h.sliding_window_enabled:
+		if'eval_model'not in dir():
+			eval_model=deserialize(h,device)
+			if h.num_loops>0:eval_model.looping_active=True
+		timed_eval('quantized_sliding_etlb',eval_val_sliding_etlb,h,device,val_data,eval_model)
+def main():
+	world_size=int(os.environ.get('WORLD_SIZE','1'));local_rank=int(os.environ.get('LOCAL_RANK','0'));distributed='RANK'in os.environ and'WORLD_SIZE'in os.environ
+	if not torch.cuda.is_available():raise RuntimeError('CUDA is required')
+	if world_size<=0:raise ValueError(f"WORLD_SIZE must be positive, got {world_size}")
+	if 8%world_size!=0:raise ValueError(f"WORLD_SIZE={world_size} must divide 8 so grad_accum_steps stays integral")
+	device=torch.device('cuda',local_rank);torch.cuda.set_device(device)
+	if distributed:dist.init_process_group(backend='nccl',device_id=device);dist.barrier()
+	torch.backends.cuda.matmul.allow_tf32=True;torch.backends.cudnn.allow_tf32=True;torch.set_float32_matmul_precision('high');from torch.backends.cuda import enable_cudnn_sdp,enable_flash_sdp,enable_math_sdp,enable_mem_efficient_sdp;enable_cudnn_sdp(False);enable_flash_sdp(True);enable_mem_efficient_sdp(False);enable_math_sdp(False);torch._dynamo.config.optimize_ddp=False;h=Hyperparameters();set_logging_hparams(h)
+	if h.is_main_process:
+		os.makedirs('logs',exist_ok=True);log(100*'=',console=False);log('Hyperparameters:',console=True)
+		for(k,v)in sorted(vars(type(h)).items()):
+			if not k.startswith('_'):log(f"  {k}: {v}",console=True)
+		log('='*100,console=False);log(f"Running Python {sys.version}",console=False);log(f"Running PyTorch {torch.__version__}",console=False);log(subprocess.run(['nvidia-smi'],stdout=subprocess.PIPE,stderr=subprocess.PIPE,text=True,check=False).stdout,console=False);log('='*100,console=False)
+	train_and_eval(h,device)
+	if distributed:dist.destroy_process_group()
+if __name__=='__main__':main()
\ No newline at end of file
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed314.log b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed314.log
new file mode 100644
index 0000000000..bad6b94f3f
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed314.log
@@ -0,0 +1,162 @@
+W0418 08:36:14.070000 1185822 torch/distributed/run.py:803] 
+W0418 08:36:14.070000 1185822 torch/distributed/run.py:803] *****************************************
+W0418 08:36:14.070000 1185822 torch/distributed/run.py:803] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0418 08:36:14.070000 1185822 torch/distributed/run.py:803] *****************************************
+Hyperparameters:
+  adam_eps: 1e-08
+  adam_wd: 0.02
+  beta1: 0.9
+  beta2: 0.95
+  bigram_dim: 32
+  bigram_vocab_size: 16384
+  compressor: brotli
+  data_dir: /workspace/parameter-golf/data/
+  datasets_dir: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192
+  distributed: True
+  ema_decay: 0.9965
+  embed_bits: 8
+  embed_clip_sigmas: 20.0
+  embed_lr: 0.6
+  embed_wd: 0.085
+  embedding_dim: 512
+  enable_looping_at: 0.35
+  etlb_clip: 3.0
+  etlb_enabled: False
+  etlb_lr: 0.05
+  etlb_steps: 5
+  eval_seq_len: 2048
+  eval_stride: 64
+  gate_attn_out: True
+  gate_attn_src: proj
+  gate_width: 12
+  gptq_calibration_batches: 64
+  gptq_reserve_seconds: 12.0
+  grad_accum_steps: 1
+  grad_clip_norm: 0.3
+  head_lr: 0.008
+  is_main_process: True
+  iterations: 20000
+  ln_scale: True
+  local_rank: 0
+  logfile: logs/seed314.txt
+  logit_softcap: 30.0
+  loop_end: 5
+  loop_start: 3
+  matrix_bits: 6
+  matrix_clip_sigmas: 12.85
+  matrix_lr: 0.022
+  max_wallclock_seconds: 600.0
+  min_lr: 0.0
+  mlp_mult: 4.0
+  model_dim: 512
+  model_path: final_model.pt
+  muon_backend_steps: 5
+  muon_beta2: 0.95
+  muon_momentum: 0.99
+  muon_momentum_warmup_start: 0.92
+  muon_momentum_warmup_steps: 1500
+  muon_row_normalize: True
+  muon_wd: 0.095
+  num_heads: 8
+  num_kv_heads: 4
+  num_layers: 11
+  num_loops: 2
+  parallel_residual_start: 7
+  qk_gain_init: 5.0
+  quantized_model_path: final_model.int6.ptz
+  rank: 0
+  readout_groups: 16
+  readout_scale: 0.5
+  rope_base: 10000.0
+  rope_dims: 16
+  rope_train_seq_len: 2048
+  run_id: seed314
+  scalar_lr: 0.02
+  seed: 314
+  skip_gates_enabled: True
+  sliding_window_enabled: True
+  smear_gate_enabled: True
+  smear_gate_width: 12
+  temp_cal_batches: 50
+  temp_cal_enabled: False
+  tie_embeddings: True
+  tied_embed_init_std: 0.005
+  tied_embed_lr: 0.03
+  tokenizer_path: /workspace/parameter-golf/data/tokenizers/fineweb_8192_bpe.model
+  train_batch_tokens: 786432
+  train_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_train_*.bin
+  train_log_every: 500
+  train_seq_len: 2048
+  ttt_chunk_tokens: 32768
+  ttt_enabled: True
+  ttt_epochs: 3
+  ttt_lr: 0.005
+  ttt_momentum: 0.9
+  use_pass_readout: False
+  val_batch_tokens: 524288
+  val_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_val_*.bin
+  val_loss_every: 4000
+  vocab_size: 8192
+  warmdown_frac: 0.72
+  warmup_steps: 20
+  world_size: 8
+  xsa_last_n: 11
+train_shards: 128
+val_tokens: 40542208
+model_params:36486278
+gptq:reserving 12s, effective=588000ms
+warmup_step: 1/20
+warmup_step: 2/20
+warmup_step: 3/20
+warmup_step: 4/20
+warmup_step: 5/20
+warmup_step: 6/20
+warmup_step: 10/20
+warmup_step: 20/20
+loop_warmup:enabled encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+loop_warmup_step: 1/20
+loop_warmup_step: 2/20
+loop_warmup_step: 3/20
+loop_warmup_step: 4/20
+loop_warmup_step: 5/20
+loop_warmup_step: 6/20
+loop_warmup_step: 10/20
+loop_warmup_step: 20/20
+0/20000 val_loss: 9.0078 val_bpb: 3.4874
+1/20000 train_loss: 9.0053 train_time: 0.0m tok/s: 8121715
+2/20000 train_loss: 12.2468 train_time: 0.0m tok/s: 7968338
+3/20000 train_loss: 11.0931 train_time: 0.0m tok/s: 7868157
+4/20000 train_loss: 9.5595 train_time: 0.0m tok/s: 7813534
+5/20000 train_loss: 8.3092 train_time: 0.0m tok/s: 7789123
+500/20000 train_loss: 3.2920 train_time: 0.9m tok/s: 7478176
+1000/20000 train_loss: 3.2087 train_time: 1.8m tok/s: 7458004
+1500/20000 train_loss: 3.1138 train_time: 2.6m tok/s: 7452878
+layer_loop:enabled step:1949 frac:0.350 encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+2000/20000 train_loss: 3.0772 train_time: 3.6m tok/s: 7357202
+2500/20000 train_loss: 2.9839 train_time: 4.9m tok/s: 6737424
+3000/20000 train_loss: 3.0110 train_time: 6.2m tok/s: 6379454
+3500/20000 train_loss: 2.9472 train_time: 7.5m tok/s: 6146460
+4000/20000 train_loss: 2.8117 train_time: 8.8m tok/s: 5968274
+4000/20000 val_loss: 2.8492 val_bpb: 1.1031
+4393/20000 val_loss: 2.8076 val_bpb: 1.0870
+stopping_early: wallclock_cap train_time: 588031ms step: 4393/20000
+peak memory allocated: 39506 MiB reserved: 39574 MiB
+ema:applying EMA weights
+pre-quantization post-ema val_loss:2.80453276 val_bpb:1.08579894 eval_time:6116ms
+Serialized model: 136555547 bytes
+Code size: 18097 bytes
+GPTQ:collecting Hessians from calibration data...
+GPTQ:collected 67 Hessians in 13.1s
+Quantized weights:
+  gptq (int6): blocks.attn.c_k.weight, blocks.attn.c_q.weight, blocks.attn.c_v.weight, blocks.attn.proj.weight, blocks.mlp.fc.weight, blocks.mlp.proj.weight
+  gptq (int8): tok_emb.weight
+  passthrough (float16): bigram.scale, blocks.attn.q_gain, logit_temp, smear_lambda
+  pertensor int8 (control): blocks.attn_scale, blocks.mlp_scale, blocks.resid_mix, skip_gates, skip_weights
+  simple int6 (bigram embed): bigram.embed.weight
+  simple int8 (small matrix): bigram.proj.weight, blocks.attn.attn_gate_proj.weight, smear_gate.weight
+Serialized model quantized+brotli: 15976073 bytes
+Total submission size quantized+brotli: 15994170 bytes
+quantized val_loss:2.83292704 val_bpb:1.09679203 eval_time:24114ms
+quantized_sliding_window val_loss:2.79016454 val_bpb:1.08023616 eval_time:119913ms
+ttt:start chunks=1238 ttt_lr=0.005 ttt_epochs=3
+quantized_ttt val_loss:2.78678778 val_bpb:1.07892882 eval_time:335468ms
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed42.log b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed42.log
new file mode 100644
index 0000000000..412791ae31
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed42.log
@@ -0,0 +1,162 @@
+W0418 08:13:00.952000 1129791 torch/distributed/run.py:803] 
+W0418 08:13:00.952000 1129791 torch/distributed/run.py:803] *****************************************
+W0418 08:13:00.952000 1129791 torch/distributed/run.py:803] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0418 08:13:00.952000 1129791 torch/distributed/run.py:803] *****************************************
+Hyperparameters:
+  adam_eps: 1e-08
+  adam_wd: 0.02
+  beta1: 0.9
+  beta2: 0.95
+  bigram_dim: 32
+  bigram_vocab_size: 16384
+  compressor: brotli
+  data_dir: /workspace/parameter-golf/data/
+  datasets_dir: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192
+  distributed: True
+  ema_decay: 0.9965
+  embed_bits: 8
+  embed_clip_sigmas: 20.0
+  embed_lr: 0.6
+  embed_wd: 0.085
+  embedding_dim: 512
+  enable_looping_at: 0.35
+  etlb_clip: 3.0
+  etlb_enabled: False
+  etlb_lr: 0.05
+  etlb_steps: 5
+  eval_seq_len: 2048
+  eval_stride: 64
+  gate_attn_out: True
+  gate_attn_src: proj
+  gate_width: 12
+  gptq_calibration_batches: 64
+  gptq_reserve_seconds: 12.0
+  grad_accum_steps: 1
+  grad_clip_norm: 0.3
+  head_lr: 0.008
+  is_main_process: True
+  iterations: 20000
+  ln_scale: True
+  local_rank: 0
+  logfile: logs/validate_seed42.txt
+  logit_softcap: 30.0
+  loop_end: 5
+  loop_start: 3
+  matrix_bits: 6
+  matrix_clip_sigmas: 12.85
+  matrix_lr: 0.022
+  max_wallclock_seconds: 600.0
+  min_lr: 0.0
+  mlp_mult: 4.0
+  model_dim: 512
+  model_path: final_model.pt
+  muon_backend_steps: 5
+  muon_beta2: 0.95
+  muon_momentum: 0.99
+  muon_momentum_warmup_start: 0.92
+  muon_momentum_warmup_steps: 1500
+  muon_row_normalize: True
+  muon_wd: 0.095
+  num_heads: 8
+  num_kv_heads: 4
+  num_layers: 11
+  num_loops: 2
+  parallel_residual_start: 7
+  qk_gain_init: 5.0
+  quantized_model_path: final_model.int6.ptz
+  rank: 0
+  readout_groups: 16
+  readout_scale: 0.5
+  rope_base: 10000.0
+  rope_dims: 16
+  rope_train_seq_len: 2048
+  run_id: validate_seed42
+  scalar_lr: 0.02
+  seed: 42
+  skip_gates_enabled: True
+  sliding_window_enabled: True
+  smear_gate_enabled: True
+  smear_gate_width: 12
+  temp_cal_batches: 50
+  temp_cal_enabled: False
+  tie_embeddings: True
+  tied_embed_init_std: 0.005
+  tied_embed_lr: 0.03
+  tokenizer_path: /workspace/parameter-golf/data/tokenizers/fineweb_8192_bpe.model
+  train_batch_tokens: 786432
+  train_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_train_*.bin
+  train_log_every: 500
+  train_seq_len: 2048
+  ttt_chunk_tokens: 32768
+  ttt_enabled: True
+  ttt_epochs: 3
+  ttt_lr: 0.005
+  ttt_momentum: 0.9
+  use_pass_readout: False
+  val_batch_tokens: 524288
+  val_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_val_*.bin
+  val_loss_every: 4000
+  vocab_size: 8192
+  warmdown_frac: 0.72
+  warmup_steps: 20
+  world_size: 8
+  xsa_last_n: 11
+train_shards: 128
+val_tokens: 40542208
+model_params:36486278
+gptq:reserving 12s, effective=588000ms
+warmup_step: 1/20
+warmup_step: 2/20
+warmup_step: 3/20
+warmup_step: 4/20
+warmup_step: 5/20
+warmup_step: 6/20
+warmup_step: 10/20
+warmup_step: 20/20
+loop_warmup:enabled encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+loop_warmup_step: 1/20
+loop_warmup_step: 2/20
+loop_warmup_step: 3/20
+loop_warmup_step: 4/20
+loop_warmup_step: 5/20
+loop_warmup_step: 6/20
+loop_warmup_step: 10/20
+loop_warmup_step: 20/20
+0/20000 val_loss: 9.0074 val_bpb: 3.4873
+1/20000 train_loss: 9.0057 train_time: 0.0m tok/s: 7912372
+2/20000 train_loss: 12.2393 train_time: 0.0m tok/s: 7888650
+3/20000 train_loss: 11.0647 train_time: 0.0m tok/s: 7821158
+4/20000 train_loss: 9.5574 train_time: 0.0m tok/s: 7773211
+5/20000 train_loss: 8.3000 train_time: 0.0m tok/s: 7739746
+500/20000 train_loss: 3.2939 train_time: 0.9m tok/s: 7488686
+1000/20000 train_loss: 3.2082 train_time: 1.8m tok/s: 7469856
+1500/20000 train_loss: 3.1137 train_time: 2.6m tok/s: 7462044
+layer_loop:enabled step:1951 frac:0.350 encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+2000/20000 train_loss: 3.0782 train_time: 3.6m tok/s: 7368866
+2500/20000 train_loss: 2.9845 train_time: 4.9m tok/s: 6745892
+3000/20000 train_loss: 3.0073 train_time: 6.2m tok/s: 6387016
+3500/20000 train_loss: 2.9421 train_time: 7.5m tok/s: 6143958
+4000/20000 train_loss: 2.8149 train_time: 8.8m tok/s: 5966483
+4000/20000 val_loss: 2.8488 val_bpb: 1.1030
+4393/20000 val_loss: 2.8077 val_bpb: 1.0870
+stopping_early: wallclock_cap train_time: 588110ms step: 4393/20000
+peak memory allocated: 39506 MiB reserved: 39574 MiB
+ema:applying EMA weights
+pre-quantization post-ema val_loss:2.80464366 val_bpb:1.08584188 eval_time:6074ms
+Serialized model: 136555547 bytes
+Code size: 18097 bytes
+GPTQ:collecting Hessians from calibration data...
+GPTQ:collected 67 Hessians in 13.1s
+Quantized weights:
+  gptq (int6): blocks.attn.c_k.weight, blocks.attn.c_q.weight, blocks.attn.c_v.weight, blocks.attn.proj.weight, blocks.mlp.fc.weight, blocks.mlp.proj.weight
+  gptq (int8): tok_emb.weight
+  passthrough (float16): bigram.scale, blocks.attn.q_gain, logit_temp, smear_lambda
+  pertensor int8 (control): blocks.attn_scale, blocks.mlp_scale, blocks.resid_mix, skip_gates, skip_weights
+  simple int6 (bigram embed): bigram.embed.weight
+  simple int8 (small matrix): bigram.proj.weight, blocks.attn.attn_gate_proj.weight, smear_gate.weight
+Serialized model quantized+brotli: 15973106 bytes
+Total submission size quantized+brotli: 15991203 bytes
+quantized val_loss:2.83289805 val_bpb:1.09678081 eval_time:23829ms
+quantized_sliding_window val_loss:2.78993168 val_bpb:1.08014601 eval_time:120470ms
+ttt:start chunks=1238 ttt_lr=0.005 ttt_epochs=3
+quantized_ttt val_loss:2.78662485 val_bpb:1.07886574 eval_time:336109ms
diff --git a/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed999.log b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed999.log
new file mode 100644
index 0000000000..3abb54cbec
--- /dev/null
+++ b/records/track_10min_16mb/2026-04-18_SP8192_BigramHash32_PathAv3/train_seed999.log
@@ -0,0 +1,162 @@
+W0418 09:00:01.395000 1241828 torch/distributed/run.py:803] 
+W0418 09:00:01.395000 1241828 torch/distributed/run.py:803] *****************************************
+W0418 09:00:01.395000 1241828 torch/distributed/run.py:803] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0418 09:00:01.395000 1241828 torch/distributed/run.py:803] *****************************************
+Hyperparameters:
+  adam_eps: 1e-08
+  adam_wd: 0.02
+  beta1: 0.9
+  beta2: 0.95
+  bigram_dim: 32
+  bigram_vocab_size: 16384
+  compressor: brotli
+  data_dir: /workspace/parameter-golf/data/
+  datasets_dir: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192
+  distributed: True
+  ema_decay: 0.9965
+  embed_bits: 8
+  embed_clip_sigmas: 20.0
+  embed_lr: 0.6
+  embed_wd: 0.085
+  embedding_dim: 512
+  enable_looping_at: 0.35
+  etlb_clip: 3.0
+  etlb_enabled: False
+  etlb_lr: 0.05
+  etlb_steps: 5
+  eval_seq_len: 2048
+  eval_stride: 64
+  gate_attn_out: True
+  gate_attn_src: proj
+  gate_width: 12
+  gptq_calibration_batches: 64
+  gptq_reserve_seconds: 12.0
+  grad_accum_steps: 1
+  grad_clip_norm: 0.3
+  head_lr: 0.008
+  is_main_process: True
+  iterations: 20000
+  ln_scale: True
+  local_rank: 0
+  logfile: logs/seed999.txt
+  logit_softcap: 30.0
+  loop_end: 5
+  loop_start: 3
+  matrix_bits: 6
+  matrix_clip_sigmas: 12.85
+  matrix_lr: 0.022
+  max_wallclock_seconds: 600.0
+  min_lr: 0.0
+  mlp_mult: 4.0
+  model_dim: 512
+  model_path: final_model.pt
+  muon_backend_steps: 5
+  muon_beta2: 0.95
+  muon_momentum: 0.99
+  muon_momentum_warmup_start: 0.92
+  muon_momentum_warmup_steps: 1500
+  muon_row_normalize: True
+  muon_wd: 0.095
+  num_heads: 8
+  num_kv_heads: 4
+  num_layers: 11
+  num_loops: 2
+  parallel_residual_start: 7
+  qk_gain_init: 5.0
+  quantized_model_path: final_model.int6.ptz
+  rank: 0
+  readout_groups: 16
+  readout_scale: 0.5
+  rope_base: 10000.0
+  rope_dims: 16
+  rope_train_seq_len: 2048
+  run_id: seed999
+  scalar_lr: 0.02
+  seed: 999
+  skip_gates_enabled: True
+  sliding_window_enabled: True
+  smear_gate_enabled: True
+  smear_gate_width: 12
+  temp_cal_batches: 50
+  temp_cal_enabled: False
+  tie_embeddings: True
+  tied_embed_init_std: 0.005
+  tied_embed_lr: 0.03
+  tokenizer_path: /workspace/parameter-golf/data/tokenizers/fineweb_8192_bpe.model
+  train_batch_tokens: 786432
+  train_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_train_*.bin
+  train_log_every: 500
+  train_seq_len: 2048
+  ttt_chunk_tokens: 32768
+  ttt_enabled: True
+  ttt_epochs: 3
+  ttt_lr: 0.005
+  ttt_momentum: 0.9
+  use_pass_readout: False
+  val_batch_tokens: 524288
+  val_files: /workspace/parameter-golf/data/datasets/fineweb10B_sp8192/fineweb_val_*.bin
+  val_loss_every: 4000
+  vocab_size: 8192
+  warmdown_frac: 0.72
+  warmup_steps: 20
+  world_size: 8
+  xsa_last_n: 11
+train_shards: 128
+val_tokens: 40542208
+model_params:36486278
+gptq:reserving 12s, effective=588000ms
+warmup_step: 1/20
+warmup_step: 2/20
+warmup_step: 3/20
+warmup_step: 4/20
+warmup_step: 5/20
+warmup_step: 6/20
+warmup_step: 10/20
+warmup_step: 20/20
+loop_warmup:enabled encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+loop_warmup_step: 1/20
+loop_warmup_step: 2/20
+loop_warmup_step: 3/20
+loop_warmup_step: 4/20
+loop_warmup_step: 5/20
+loop_warmup_step: 6/20
+loop_warmup_step: 10/20
+loop_warmup_step: 20/20
+0/20000 val_loss: 9.0083 val_bpb: 3.4876
+1/20000 train_loss: 9.0065 train_time: 0.0m tok/s: 8085462
+2/20000 train_loss: 12.2839 train_time: 0.0m tok/s: 7995772
+3/20000 train_loss: 11.1313 train_time: 0.0m tok/s: 7876203
+4/20000 train_loss: 9.6083 train_time: 0.0m tok/s: 7830526
+5/20000 train_loss: 8.3264 train_time: 0.0m tok/s: 7809404
+500/20000 train_loss: 3.2918 train_time: 0.9m tok/s: 7492101
+1000/20000 train_loss: 3.2060 train_time: 1.8m tok/s: 7472803
+1500/20000 train_loss: 3.1122 train_time: 2.6m tok/s: 7464925
+layer_loop:enabled step:1952 frac:0.350 encoder:[0, 1, 2, 3, 4, 5, 3, 4] decoder:[5, 3, 4, 5, 6, 7, 8, 9, 10]
+2000/20000 train_loss: 3.0707 train_time: 3.6m tok/s: 7374274
+2500/20000 train_loss: 2.9827 train_time: 4.9m tok/s: 6750658
+3000/20000 train_loss: 3.0066 train_time: 6.2m tok/s: 6390914
+3500/20000 train_loss: 2.9431 train_time: 7.5m tok/s: 6156601
+4000/20000 train_loss: 2.8129 train_time: 8.8m tok/s: 5984704
+4000/20000 val_loss: 2.8500 val_bpb: 1.1034
+4403/20000 val_loss: 2.8071 val_bpb: 1.0868
+stopping_early: wallclock_cap train_time: 588029ms step: 4403/20000
+peak memory allocated: 39506 MiB reserved: 39574 MiB
+ema:applying EMA weights
+pre-quantization post-ema val_loss:2.80404559 val_bpb:1.08561033 eval_time:6108ms
+Serialized model: 136555547 bytes
+Code size: 18097 bytes
+GPTQ:collecting Hessians from calibration data...
+GPTQ:collected 67 Hessians in 13.1s
+Quantized weights:
+  gptq (int6): blocks.attn.c_k.weight, blocks.attn.c_q.weight, blocks.attn.c_v.weight, blocks.attn.proj.weight, blocks.mlp.fc.weight, blocks.mlp.proj.weight
+  gptq (int8): tok_emb.weight
+  passthrough (float16): bigram.scale, blocks.attn.q_gain, logit_temp, smear_lambda
+  pertensor int8 (control): blocks.attn_scale, blocks.mlp_scale, blocks.resid_mix, skip_gates, skip_weights
+  simple int6 (bigram embed): bigram.embed.weight
+  simple int8 (small matrix): bigram.proj.weight, blocks.attn.attn_gate_proj.weight, smear_gate.weight
+Serialized model quantized+brotli: 15978006 bytes
+Total submission size quantized+brotli: 15996103 bytes
+quantized val_loss:2.83249036 val_bpb:1.09662297 eval_time:24096ms
+quantized_sliding_window val_loss:2.78950296 val_bpb:1.07998003 eval_time:120053ms
+ttt:start chunks=1238 ttt_lr=0.005 ttt_epochs=3
+quantized_ttt val_loss:2.78608265 val_bpb:1.07865582 eval_time:333575ms