vllm-project · vllm-bot · Apr 15, 2026 · Mar 20, 2026 · Mar 21, 2026 · Apr 14, 2026
diff --git a/vllm/model_executor/offloader/prefetch.py b/vllm/model_executor/offloader/prefetch.py
@@ -18,6 +18,7 @@
 import torch.nn as nn
 
 # Import prefetch_ops to register custom ops at module load time
+import vllm.envs as envs
 import vllm.model_executor.offloader.prefetch_ops  # noqa: F401
 from vllm.logger import init_logger
 from vllm.model_executor.offloader.base import BaseOffloader
@@ -528,7 +529,9 @@ def start_onload_to_static(self):
                 gpu_buffer = offloader._gpu_buffer
                 assert cpu_storage is not None, "CPU storage not initialized"
                 assert gpu_buffer is not None, "GPU buffer not assigned"
-                assert not is_pin_memory_available() or cpu_storage.is_pinned(), (
+                assert (envs.VLLM_WEIGHT_OFFLOADING_DISABLE_PIN_MEMORY
+                        or not is_pin_memory_available()
+                        or cpu_storage.is_pinned()), (
                     f"CPU storage for {name} is not pinned! "
                     "non_blocking=True H2D copy from non-pinned memory "
                     "causes stream synchronization that breaks "
@@ -629,7 +632,8 @@ def _offload_to_cpu_internal(self):
         original GPU tensor is garbage collected.
         """
         param = self._param
-        pin_memory = is_pin_memory_available()
+        pin_memory = (is_pin_memory_available()
+                      and not envs.VLLM_WEIGHT_OFFLOADING_DISABLE_PIN_MEMORY)
 
         # Create pinned CPU storage and copy current GPU data
         self._cpu_storage = torch.empty_strided(
@@ -666,7 +670,9 @@ def _update_cpu_storage_from_param(self) -> None:
         param = self._param
 
         if param.data.device.type == "cpu":
-            if is_pin_memory_available() and not param.data.is_pinned():
+            if (is_pin_memory_available()
+                    and not envs.VLLM_WEIGHT_OFFLOADING_DISABLE_PIN_MEMORY
+                    and not param.data.is_pinned()):
                 pinned = torch.empty_strided(
                     size=param.data.size(),
                     stride=param.data.stride(),