KellerJordan · ClassicLarry · Feb 11, 2026 · Jan 31, 2026 · Jan 31, 2026 · Feb 1, 2026
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/112c686e-b0d6-4dc8-814a-1ad1f5d5b274.txt b/records/track_1_short/2026-01-31-BigramHashH2D/112c686e-b0d6-4dc8-814a-1ad1f5d5b274.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/439741b3-3557-40ec-8dbd-774921ae6a7d.txt b/records/track_1_short/2026-01-31-BigramHashH2D/439741b3-3557-40ec-8dbd-774921ae6a7d.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/4cf9ea26-1f26-4e64-b052-0b0ff0763178.txt b/records/track_1_short/2026-01-31-BigramHashH2D/4cf9ea26-1f26-4e64-b052-0b0ff0763178.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/8d0fb296-a033-445f-ac3a-7cbd6d0e4af6.txt b/records/track_1_short/2026-01-31-BigramHashH2D/8d0fb296-a033-445f-ac3a-7cbd6d0e4af6.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/9b20d90c-95f3-4222-befa-9fb695b83939.txt b/records/track_1_short/2026-01-31-BigramHashH2D/9b20d90c-95f3-4222-befa-9fb695b83939.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/9e15fb87-54d3-4efa-b03c-75d0e4c2c734.txt b/records/track_1_short/2026-01-31-BigramHashH2D/9e15fb87-54d3-4efa-b03c-75d0e4c2c734.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/c8648449-1553-4f21-852c-9aa5f1293dad.txt b/records/track_1_short/2026-01-31-BigramHashH2D/c8648449-1553-4f21-852c-9aa5f1293dad.txt
diff --git a/records/track_1_short/2026-01-31-BigramHashH2D/e8b7eb4d-7eb4-46cf-a4bf-18e3e44b1b63.txt b/records/track_1_short/2026-01-31-BigramHashH2D/e8b7eb4d-7eb4-46cf-a4bf-18e3e44b1b63.txt
diff --git a/train_gpt.py b/train_gpt.py
@@ -1134,7 +1134,21 @@ def __init__(self, vocab_size: int, num_layers: int, num_heads: int, head_dim: i
         )
         self.scalars.label = 'scalars'
 
-    def forward(self, input_seq: Tensor, target_seq: Tensor, seqlens: Tensor, bigram_input_seq: Tensor, schedule_cfg: ForwardScheduleConfig):
+    @staticmethod
+    @torch.compile(dynamic=False, fullgraph=True)
+    def _compute_bigram_hash(x: Tensor, mod: int) -> Tensor:
+        """
+        Computes bigram hash on GPU for each position using [prev_token, curr_token].
+        Mathematically identical to the CPU version but computed on device.
+        """
+        rand_int_1 = 36313
+        rand_int_2 = 27191
+        result = torch.empty_like(x)
+        result[0] = mod
+        result[1:] = torch.bitwise_xor(rand_int_1 * x[1:], rand_int_2 * x[:-1]) % mod
+        return result
+
+    def forward(self, input_seq: Tensor, target_seq: Tensor, seqlens: Tensor, schedule_cfg: ForwardScheduleConfig):
         assert input_seq.ndim == 1
 
         # unpack schedule_cfg
@@ -1163,7 +1177,9 @@ def forward(self, input_seq: Tensor, target_seq: Tensor, seqlens: Tensor, bigram
 
         # Embedding lookup - embed is synced from lm_head during tied phase by optimizer
         x = self.embed(input_seq)
-        x0_bigram = self.bigram_embed(bigram_input_seq)[None]
+        # Compute bigram hash on GPU (moved from CPU data loader)
+        bigram_seq = self._compute_bigram_hash(input_seq, args.bigram_vocab_size - 1)
+        x0_bigram = self.bigram_embed(bigram_seq)[None]
 
         # Value embeddings - always computed (not precomputed)
         ve = self.value_embeds.view(5, self.vocab_size, -1)[:, input_seq]
@@ -1318,21 +1334,6 @@ def get():
             return result['shard']
         return get
 
-def get_bigram_hash(x):
-    """
-    Computes bigram hash for each position using [prev_token, curr_token].
-    Multiply by arbitary large ints to get even spread over int32 range.
-    Position 0 is mapped to the reserved index (vocab_size - 1).
-    BOS_tokens within the batch will hash based on last token of prior doc. Masking this ran slower and showed no improvement.
-    """
-    rand_int_1 = 36313
-    rand_int_2 = 27191
-    mod = args.bigram_vocab_size-1
-    x = x.to(torch.int32).clone()
-    x[0] = mod
-    x[1:] = torch.bitwise_xor(rand_int_1 * x[1:], rand_int_2 * x[:-1]) % mod
-    return x
-
 def distributed_data_generator(filename_pattern: str, num_tokens: int, max_seq_len: int, grad_accum_steps: int = 1, align_to_bos: bool = True):
     # align_to_bos: each sequence begins with Beginning of Sequence token, sequences truncated to max_seq_len
     rank = dist.get_rank() if dist.is_initialized() else 0
@@ -1397,13 +1398,12 @@ def distributed_data_generator(filename_pattern: str, num_tokens: int, max_seq_l
         _inputs = _inputs.to(dtype=torch.int32)
         _targets = _targets.to(dtype=torch.int64)
         _cum_lengths = _cum_lengths.to(dtype=torch.int32)
-        _bigram_inputs = get_bigram_hash(_inputs)
+        # Bigram hash computation moved to GPU in forward()
 
         new_params = yield (
             _inputs.to(device="cuda", non_blocking=True),
             _targets.to(device="cuda", non_blocking=True),
             _cum_lengths.to(device="cuda", non_blocking=True),
-            _bigram_inputs.to(device="cuda", non_blocking=True)
         )
 
         if new_params is not None:
@@ -1736,13 +1736,13 @@ def nvidia_smi():
     training_manager.advance_schedule(step)
     model.eval()
     with torch.no_grad():
-        inputs, targets, cum_seqlens, bigram_inputs = next(val_loader)
-        model(inputs, targets, cum_seqlens, bigram_inputs, training_manager.get_forward_args())
+        inputs, targets, cum_seqlens = next(val_loader)
+        model(inputs, targets, cum_seqlens, training_manager.get_forward_args())
     model.train()
     for idx in range(grad_accum_steps):
         send_args = training_manager.train_loader_send_args
-        inputs, targets, cum_seqlens, bigram_inputs = train_loader.send(send_args)
-        (model(inputs, targets, cum_seqlens, bigram_inputs, training_manager.get_forward_args()) * grad_scale).backward()
+        inputs, targets, cum_seqlens = train_loader.send(send_args)
+        (model(inputs, targets, cum_seqlens, training_manager.get_forward_args()) * grad_scale).backward()
     training_manager.step_optimizers(step)
 print0("Resetting Model", console=True)
 model.zero_grad(set_to_none=True)
@@ -1781,8 +1781,8 @@ def nvidia_smi():
         val_loss = 0
         with torch.no_grad():
             for _ in range(val_steps):
-                inputs, targets, cum_seqlens, bigram_inputs = next(val_loader)
-                val_loss += model(inputs, targets, cum_seqlens, bigram_inputs, training_manager.get_forward_args())
+                inputs, targets, cum_seqlens = next(val_loader)
+                val_loss += model(inputs, targets, cum_seqlens, training_manager.get_forward_args())
         val_loss /= val_steps
         del val_loader
         dist.reduce(val_loss, 0, op=dist.ReduceOp.AVG)
@@ -1802,8 +1802,8 @@ def nvidia_smi():
 
     # --------------- TRAINING SECTION -----------------
     for idx in range(grad_accum_steps):
-        inputs, targets, cum_seqlens, bigram_inputs = train_loader.send(training_manager.train_loader_send_args)
-        (model(inputs, targets, cum_seqlens, bigram_inputs, training_manager.get_forward_args()) * grad_scale).backward()
+        inputs, targets, cum_seqlens = train_loader.send(training_manager.train_loader_send_args)
+        (model(inputs, targets, cum_seqlens, training_manager.get_forward_args()) * grad_scale).backward()
     training_manager.step_optimizers(step)
 
     # logging