tweaks and fixes to stability on win32+linux

dillonroach · dillonroach · commit 1b39a8a3c5b0 · 2026-05-06T21:49:15.000-07:00
diff --git a/capabilities/llamacpp/app.py b/capabilities/llamacpp/app.py
@@ -115,10 +115,26 @@ def first(pred):
     sys.exit(1)
 
 
+PROGRESS_INTERVAL_MB = 5
+
+
+def _progress_reporter():
+    last_mb = [0.0]
+    def hook(chunks, block_size, total_size):
+        if total_size <= 0:
+            return
+        downloaded = chunks * block_size
+        mb = downloaded / (1024 ** 2)
+        total_mb = total_size / (1024 ** 2)
+        if mb - last_mb[0] >= PROGRESS_INTERVAL_MB or downloaded >= total_size:
+            print(f'  {mb:.1f} / {total_mb:.1f} MB', flush=True)
+            last_mb[0] = mb
+    return hook
+
+
 def download_file(url, dest):
-    print(f'Downloading {os.path.basename(dest)} ...')
-    urllib.request.urlretrieve(url, dest, reporthook=lambda c, bs, ts: print(f'  {c*bs/(1024**2):.1f} MB', end='\r') if ts > 0 else None)
-    print()
+    print(f'Downloading {os.path.basename(dest)} ...', flush=True)
+    urllib.request.urlretrieve(url, dest, reporthook=_progress_reporter())
 
 
 def extract(archive, dest_dir):
diff --git a/capabilities/llamacpp/pixi.toml b/capabilities/llamacpp/pixi.toml
@@ -103,7 +103,7 @@ depends-on = ["download-llamacpp"]
 
 [feature.gpu.target.win-64.tasks.serve]
 args = [{ arg = "model", default = "unsloth/gemma-4-E4B-it-GGUF:Q4_K_M" }]
-cmd = """HF_HOME=models PATH="bin:$PATH" python serve.py \
+cmd = """HF_HOME=models PATH="bin;$PATH" python serve.py \
   --model "{{ model }}" \
   --backend gpu"""
 depends-on = ["download-llamacpp"]
diff --git a/capabilities/llamacpp/serve.py b/capabilities/llamacpp/serve.py
@@ -220,7 +220,7 @@ def start_server(model, backend):
 def main():
     parser = argparse.ArgumentParser(description='Prepare model cache and launch llama.cpp server.')
     parser.add_argument('--model', default=DEFAULT_MODEL)
-    parser.add_argument('--backend', choices=['cpu', 'gpu'], default=os.environ.get('LLAMA_BACKEND', 'cpu'))
+    parser.add_argument('--backend', choices=['cpu', 'gpu'], default=os.environ.get('LLAMA_BACKEND', 'gpu'))
     args = parser.parse_args()
 
     os.environ.setdefault('HF_HOME', HF_HOME)