aws
diff --git a/‎src/sagemaker/modules/testing_notebooks/base_model_trainer.ipynb
Lines changed: 49 additions & 66 deletions b/‎src/sagemaker/modules/testing_notebooks/base_model_trainer.ipynb
Lines changed: 49 additions & 66 deletions
@@ -6,11 +6,25 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "import sys, os\n",
-    "\n",
-    "# Get the absolute path of the root directory\n",
-    "root_dir = os.path.abspath(os.path.join(os.getcwd(), \"../../..\"))\n",
-    "sys.path.insert(0, root_dir)"
+    "alias = \"<alias>\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "! pip install \"pydantic>=2.0.0\" sagemaker-core"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "! pip install sagemaker-2.232.4.dev0.tar.gz"
    ]
   },
   {
@@ -37,6 +51,7 @@
     "model_trainer = ModelTrainer(\n",
     "    training_image=pytorch_image,\n",
     "    source_code=source_code,\n",
+    "    base_job_name=f\"{alias}-miminal-case\",\n",
     ")"
    ]
   },
@@ -46,14 +61,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "model_trainer.train(wait=False)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/3maxeyb/IsenLink"
+    "model_trainer.train()"
    ]
   },
   {
@@ -82,16 +90,10 @@
     "model_trainer = ModelTrainer(\n",
     "    training_image=pytorch_image,\n",
     "    source_code=source_code,\n",
+    "    base_job_name=f\"{alias}-simple-case-1\",\n",
     ")\n",
     "\n",
-    "model_trainer.train(wait=False)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/6uy7pmpj/IsenLink"
+    "model_trainer.train()"
    ]
   },
   {
@@ -118,6 +120,7 @@
     "model_trainer = ModelTrainer(\n",
     "    training_image=pytorch_image,\n",
     "    source_code=source_code,\n",
+    "    base_job_name=f\"{alias}-simple-case-2\",\n",
     ")"
    ]
   },
@@ -127,14 +130,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "model_trainer.train(wait=False)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/7n4n4ogr/IsenLink"
+    "model_trainer.train()"
    ]
   },
   {
@@ -159,7 +155,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "access_token = os.environ.get(\"HF_TOKEN\", \"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\")\n",
+    "import os\n",
+    "\n",
+    "access_token = \"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\"\n",
+    "os.environ[\"HUGGING_FACE_HUB_TOKEN\"] = access_token\n",
+    "\n",
     "model_id = \"meta-llama/Llama-2-7b-hf\"\n",
     "\n",
     "dataset_name = \"tatsu-lab/alpaca\""
@@ -276,7 +276,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "#### Model Trainer Torchrun"
+    "#### Model Trainer Torchrun - Manual"
    ]
   },
   {
@@ -298,8 +298,8 @@
     "env[\"RDMAV_FORK_SAFE\"] = \"1\"\n",
     "\n",
     "compute = Compute(\n",
-    "    instance_count=2,\n",
-    "    instance_type=\"ml.p4d.24xlarge\",\n",
+    "    instance_count=1,\n",
+    "    instance_type=\"ml.g5.48xlarge\",\n",
     "    volume_size_in_gb=96,\n",
     "    keep_alive_period_in_seconds=3600\n",
     ")\n",
@@ -329,7 +329,7 @@
     "source_code = SourceCode(\n",
     "    source_dir=\"distributed-training/scripts\",\n",
     "    requirements=\"requirements.txt\",\n",
-    "    command=\"torchrun --nnodes 2 \\\n",
+    "    command=\"torchrun --nnodes 1 \\\n",
     "            --nproc_per_node 8 \\\n",
     "            --master_addr algo-1 \\\n",
     "            --master_port 7777 \\\n",
@@ -343,6 +343,7 @@
     "    environment=env,\n",
     "    hyperparameters=hyperparameters,\n",
     "    source_code=source_code,\n",
+    "    base_job_name=f\"{alias}-distributed-case\",\n",
     ")"
    ]
   },
@@ -356,14 +357,14 @@
     "    channel_name=\"dataset\",\n",
     "    data_source=training_input_path,\n",
     ")\n",
-    "model_trainer.train(input_data_config=[test_data], wait=False)"
+    "model_trainer.train(input_data_config=[test_data])"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Successful Run - https://tiny.amazon.com/10wljn1yu/IsenLink"
+    "#### Model Trainer Torchrun - Abstractions"
    ]
   },
   {
@@ -379,7 +380,7 @@
     "\n",
     "compute = Compute(\n",
     "    instance_count=2,\n",
-    "    instance_type=\"ml.p4d.24xlarge\",\n",
+    "    instance_type=\"ml.g5.48xlarge\",\n",
     "    volume_size_in_gb=96,\n",
     "    keep_alive_period_in_seconds=3600\n",
     ")\n",
@@ -445,6 +446,7 @@
     "    hyperparameters=hyperparameters,\n",
     "    source_code=source_code,\n",
     "    distributed_runner=mpi,\n",
+    "    base_job_name=f\"{alias}-distributed-abstractions\",\n",
     ")"
    ]
   },
@@ -458,7 +460,7 @@
     "    channel_name=\"dataset\",\n",
     "    data_source=training_input_path,\n",
     ")\n",
-    "model_trainer.train(input_data_config=[test_data], wait=False)"
+    "model_trainer.train(input_data_config=[test_data])"
    ]
   },
   {
@@ -511,13 +513,14 @@
     "    }\n",
     "}\n",
     "\n",
-    "training_image = \"059094755717.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-gpu\"\n",
+    "training_image = \"438465156666.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-gpu\"\n",
     "\n",
     "model_trainer = ModelTrainer.from_recipe(\n",
     "    training_recipe=\"training/llama/hf_llama3_8b_seq8192_gpu\",\n",
     "    training_image=training_image,\n",
     "    recipe_overrides=recipe_overrides,\n",
-    "    compute=Compute(instance_type=\"ml.p4d.24xlarge\")\n",
+    "    compute=Compute(instance_type=\"ml.g5.48xlarge\"),\n",
+    "    base_job_name=f\"{alias}-recipe-case-1\",\n",
     ")"
    ]
   },
@@ -530,13 +533,6 @@
     "model_trainer.train()"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/14jxjrndx/IsenLink"
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -553,12 +549,13 @@
     "from sagemaker.modules.train import ModelTrainer\n",
     "from sagemaker.modules.configs import Compute\n",
     "\n",
-    "training_image = \"059094755717.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-gpu\"\n",
+    "training_image = \"438465156666.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-gpu\"\n",
     "\n",
     "model_trainer = ModelTrainer.from_recipe(\n",
     "    training_recipe=\"recipes/custom-recipe.yaml\",\n",
     "    training_image=training_image,\n",
-    "    compute=Compute(instance_type=\"ml.p4d.24xlarge\")\n",
+    "    compute=Compute(instance_type=\"ml.g5.48xlarge\"),\n",
+    "    base_job_name=f\"{alias}-recipe-case-2\",\n",
     ")"
    ]
   },
@@ -571,13 +568,6 @@
     "model_trainer.train()"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/dimbimx1/IsenLink"
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -624,7 +614,7 @@
     "    \"FI_EFA_FORK_SAFE\": \"1\"\n",
     "}\n",
     "\n",
-    "training_image = \"059094755717.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-neuron\"\n",
+    "training_image = \"438465156666.dkr.ecr.us-west-2.amazonaws.com/sagemaker-recipes-neuron\"\n",
     "\n",
     "model_trainer = ModelTrainer.from_recipe(\n",
     "    training_recipe=\"https://raw.githubusercontent.com/aws-neuron/neuronx-distributed-training/refs/heads/main/examples/conf/hf_llama3_8B_config.yaml\",\n",
@@ -635,7 +625,7 @@
     "        instance_count=2,\n",
     "    ),\n",
     "    stopping_condition=StoppingCondition(\n",
-    "        max_runtime_in_seconds=86400\n",
+    "        max_runtime_in_seconds=3600\n",
     "    ),\n",
     "    environment=env\n",
     ")"
@@ -649,18 +639,11 @@
    "source": [
     "train = InputData(\n",
     "    channel_name=\"train\",\n",
-    "    data_source=\"s3://sagemaker-recipes-059094755717-data/data_llama3/\",\n",
+    "    data_source=\"s3://sagemaker-recipes-438465156666-data/data_llama3/\",\n",
     ")\n",
     "\n",
     "model_trainer.train(input_data_config=[train], wait=False)"
    ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Successful Run - https://tiny.amazon.com/125zldym8/IsenLink"
-   ]
   }
  ],
  "metadata": {