Remove default values for fields in recipe_overrides and fix recipe path. (#1566)

schinmayee · pintaoz-aws · commit 30dfdcae1152 · 2024-12-04T01:49:12.000-08:00
diff --git a/src/sagemaker/pytorch/estimator.py b/src/sagemaker/pytorch/estimator.py
@@ -592,7 +592,6 @@ def _setup_for_training_recipe(cls, training_recipe, recipe_overrides, kwargs):
                 cls.recipe_launcher_dir.name,
                 "recipes_collection",
                 "recipes",
-                "training",
                 training_recipe + ".yaml",
             )
             if os.path.isfile(recipe):
@@ -602,8 +601,6 @@ def _setup_for_training_recipe(cls, training_recipe, recipe_overrides, kwargs):
 
         recipe = OmegaConf.load(temp_local_recipe)
         os.unlink(temp_local_recipe)
-        recipe_overrides.setdefault("run", dict())["results_dir"] = "/opt/ml/model"
-        recipe_overrides.setdefault("exp_manager", dict())["exp_dir"] = "/opt/ml/model/"
         recipe = OmegaConf.merge(recipe, recipe_overrides)
 
         if "instance_type" not in kwargs:
diff --git a/tests/unit/test_pytorch.py b/tests/unit/test_pytorch.py
@@ -839,6 +839,9 @@ def test_training_recipe_for_cpu(sagemaker_session):
     container_log_level = '"logging.INFO"'
 
     recipe_overrides = {
+        "run": {
+            "results_dir": "/opt/ml/model",
+        },
         "exp_manager": {
             "explicit_log_dir": "/opt/ml/output/tensorboard",
             "checkpoint_dir": "/opt/ml/checkpoints",
@@ -860,7 +863,7 @@ def test_training_recipe_for_cpu(sagemaker_session):
             instance_type=INSTANCE_TYPE,
             base_job_name="job",
             container_log_level=container_log_level,
-            training_recipe="llama/hf_llama3_8b_seq8192_gpu",
+            training_recipe="training/llama/hf_llama3_8b_seq8192_gpu",
             recipe_overrides=recipe_overrides,
         )
 
@@ -877,6 +880,9 @@ def test_training_recipe_for_gpu(sagemaker_session, recipe, model):
     container_log_level = '"logging.INFO"'
 
     recipe_overrides = {
+        "run": {
+            "results_dir": "/opt/ml/model",
+        },
         "exp_manager": {
             "explicit_log_dir": "/opt/ml/output",
             "checkpoint_dir": "/opt/ml/checkpoints",
@@ -896,7 +902,7 @@ def test_training_recipe_for_gpu(sagemaker_session, recipe, model):
         instance_type=INSTANCE_TYPE_GPU,
         base_job_name="job",
         container_log_level=container_log_level,
-        training_recipe=f"{model}/{recipe}",
+        training_recipe=f"training/{model}/{recipe}",
         recipe_overrides=recipe_overrides,
     )
 
@@ -922,6 +928,9 @@ def test_training_recipe_with_override(sagemaker_session):
     container_log_level = '"logging.INFO"'
 
     recipe_overrides = {
+        "run": {
+            "results_dir": "/opt/ml/model",
+        },
         "exp_manager": {
             "explicit_log_dir": "/opt/ml/output",
             "checkpoint_dir": "/opt/ml/checkpoints",
@@ -943,7 +952,7 @@ def test_training_recipe_with_override(sagemaker_session):
         instance_type=INSTANCE_TYPE_GPU,
         base_job_name="job",
         container_log_level=container_log_level,
-        training_recipe="llama/hf_llama3_8b_seq8192_gpu",
+        training_recipe="training/llama/hf_llama3_8b_seq8192_gpu",
         recipe_overrides=recipe_overrides,
     )
 
@@ -956,6 +965,9 @@ def test_training_recipe_for_trainium(sagemaker_session):
     container_log_level = '"logging.INFO"'
 
     recipe_overrides = {
+        "run": {
+            "results_dir": "/opt/ml/model",
+        },
         "exp_manager": {
             "explicit_log_dir": "/opt/ml/output",
         },