PaddlePaddle · Jiang-Jia-Jun · Oct 24, 2025 · Oct 23, 2025 · Oct 24, 2025 · Jiang-Jia-Jun
diff --git a/download.py b/download.py
@@ -0,0 +1,14 @@
+from huggingface_hub import snapshot_download
+
+repo_id = "baidu/ERNIE-4.5-0.3B-Paddle"
+local_dir = "/root/wenlei07/model/ERNIE-4.5-0.3B-Paddle"
+
+# 下载整个仓库的内容到指定目录
+local_path = snapshot_download(
+    repo_id=repo_id,
+    local_dir=local_dir,
+    # 启用断点续传和更好的下载管理
+    local_dir_use_symlinks=False,
+)
+
+print(f"模型文件已下载到: {local_path}")
diff --git a/fastdeploy/benchmarks/latency.py b/fastdeploy/benchmarks/latency.py
@@ -83,7 +83,7 @@ def main(args: argparse.Namespace):
     # NOTE(woosuk): If the request cannot be processed in a single batch,
     # the engine will automatically process the request in multiple batches.
     llm = LLM(**dataclasses.asdict(engine_args))
-    assert llm.llm_engine.cfg.max_model_len >= (args.input_len + args.output_len), (
+    assert llm.llm_engine.cfg.model_config.max_model_len >= (args.input_len + args.output_len), (
         "Please ensure that max_model_len is greater than" " the sum of input_len and output_len."
     )
 

diff --git a/fastdeploy/entrypoints/cli/main.py b/fastdeploy/entrypoints/cli/main.py
@@ -22,6 +22,7 @@
 
 def main():
     import fastdeploy.entrypoints.cli.benchmark.main
+    import fastdeploy.entrypoints.cli.collect_env
     import fastdeploy.entrypoints.cli.openai
     import fastdeploy.entrypoints.cli.run_batch
     import fastdeploy.entrypoints.cli.serve
@@ -34,6 +35,7 @@ def main():
         fastdeploy.entrypoints.cli.openai,
         fastdeploy.entrypoints.cli.benchmark.main,
         fastdeploy.entrypoints.cli.serve,
+        fastdeploy.entrypoints.cli.collect_env,
     ]
 
     parser = FlexibleArgumentParser(description="FastDeploy CLI")

diff --git a/tests/benchmarks/test_latency_benchmarks.py b/tests/benchmarks/test_latency_benchmarks.py
@@ -38,7 +38,7 @@ def test_main(self, mock_tqdm, mock_randint, mock_llm):
         mock_llm_instance = MagicMock()
         mock_llm.return_value = mock_llm_instance
         mock_cfg = MagicMock()
-        mock_cfg.max_model_len = 2048
+        mock_cfg.model_config.max_model_len = 2048
         mock_llm_instance.llm_engine.cfg = mock_cfg
 
         mock_randint.return_value = np.zeros((8, 32))
@@ -74,7 +74,7 @@ def test_main_profile_error(self, mock_exit, mock_llm):
         mock_llm_instance = MagicMock()
         mock_llm.return_value = mock_llm_instance
         mock_cfg = MagicMock()
-        mock_cfg.max_model_len = 2048
+        mock_cfg.model_config.max_model_len = 2048
         mock_llm_instance.llm_engine.cfg = mock_cfg
 
         # Build args using parser