change: refactor distribution config construction (#2099)

icywang86rui · Rui Wang Napieralski · web-flow · commit 570c67806f4f · 2021-01-21T09:29:30.000-08:00
Co-authored-by: Rui Wang Napieralski &lt;wru@amazon.com&gt;
diff --git a/src/sagemaker/estimator.py b/src/sagemaker/estimator.py
@@ -49,6 +49,7 @@
     UploadedCode,
     validate_source_dir,
     _region_supports_debugger,
+    get_mp_parameters,
 )
 from sagemaker.inputs import TrainingInput
 from sagemaker.job import _Job
@@ -2539,6 +2540,50 @@ def transformer(
             sagemaker_session=self.sagemaker_session,
         )
 
+    def _distribution_configuration(self, distribution):
+        """Returns a dict of distribution configurations.
+
+        Args:
+            distribution (dict): A dictionary with information on how to run distributed training.
+
+        Returns:
+            dict that
+        """
+        distribution_config = {}
+
+        if "parameter_server" in distribution:
+            ps_enabled = distribution.get("parameter_server").get("enabled", False)
+            distribution_config[self.LAUNCH_PS_ENV_NAME] = ps_enabled
+
+        if "mpi" in distribution:
+            mpi_dict = distribution["mpi"]
+            mpi_enabled = mpi_dict.get("enabled", False)
+            distribution_config[self.LAUNCH_MPI_ENV_NAME] = mpi_enabled
+
+            if mpi_dict.get("processes_per_host"):
+                distribution_config[self.MPI_NUM_PROCESSES_PER_HOST] = mpi_dict.get(
+                    "processes_per_host"
+                )
+
+            distribution_config[self.MPI_CUSTOM_MPI_OPTIONS] = mpi_dict.get(
+                "custom_mpi_options", ""
+            )
+
+            if get_mp_parameters(distribution):
+                distribution_config["mp_parameters"] = get_mp_parameters(distribution)
+
+        elif "modelparallel" in distribution.get("smdistributed", {}):
+            raise ValueError("Cannot use Model Parallelism without MPI enabled!")
+
+        if "smdistributed" in distribution:
+            # smdistributed strategy selected
+            smdistributed = distribution["smdistributed"]
+            smdataparallel_enabled = smdistributed.get("dataparallel", {}).get("enabled", False)
+            distribution_config[self.LAUNCH_SM_DDP_ENV_NAME] = smdataparallel_enabled
+            distribution_config[self.INSTANCE_TYPE] = self.instance_type
+
+        return distribution_config
+
 
 def _s3_uri_prefix(channel_name, s3_data):
     """Placeholder docstring"""
diff --git a/src/sagemaker/pytorch/estimator.py b/src/sagemaker/pytorch/estimator.py
@@ -26,7 +26,6 @@
     validate_version_or_image_args,
     warn_if_parameter_server_with_multi_gpu,
     validate_smdistributed,
-    get_mp_parameters,
 )
 from sagemaker.pytorch import defaults
 from sagemaker.pytorch.model import PyTorchModel
@@ -190,39 +189,9 @@ def __init__(
     def hyperparameters(self):
         """Return hyperparameters used by your custom PyTorch code during model training."""
         hyperparameters = super(PyTorch, self).hyperparameters()
-        additional_hyperparameters = {}
-
-        if "parameter_server" in self.distribution:
-            ps_enabled = self.distribution.get("parameter_server").get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_PS_ENV_NAME] = ps_enabled
-
-        if "mpi" in self.distribution:
-            mpi_dict = self.distribution["mpi"]
-            mpi_enabled = mpi_dict.get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_MPI_ENV_NAME] = mpi_enabled
-
-            if mpi_dict.get("processes_per_host"):
-                additional_hyperparameters[self.MPI_NUM_PROCESSES_PER_HOST] = mpi_dict.get(
-                    "processes_per_host"
-                )
-
-            additional_hyperparameters[self.MPI_CUSTOM_MPI_OPTIONS] = mpi_dict.get(
-                "custom_mpi_options", ""
-            )
-
-            if get_mp_parameters(self.distribution):
-                additional_hyperparameters["mp_parameters"] = get_mp_parameters(self.distribution)
-
-        elif "modelparallel" in self.distribution.get("smdistributed", {}):
-            raise ValueError("Cannot use Model Parallelism without MPI enabled!")
-
-        if "smdistributed" in self.distribution:
-            # smdistributed strategy selected
-            smdistributed = self.distribution["smdistributed"]
-            smdataparallel_enabled = smdistributed.get("dataparallel", {}).get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_SM_DDP_ENV_NAME] = smdataparallel_enabled
-            additional_hyperparameters[self.INSTANCE_TYPE] = self.instance_type
-
+        additional_hyperparameters = self._distribution_configuration(
+            distribution=self.distribution
+        )
         hyperparameters.update(Framework._json_encode_hyperparameters(additional_hyperparameters))
         return hyperparameters
 
diff --git a/src/sagemaker/tensorflow/estimator.py b/src/sagemaker/tensorflow/estimator.py
@@ -320,44 +320,12 @@ def create_model(
     def hyperparameters(self):
         """Return hyperparameters used by your custom TensorFlow code during model training."""
         hyperparameters = super(TensorFlow, self).hyperparameters()
-        additional_hyperparameters = {}
-
-        if "parameter_server" in self.distribution:
-            ps_enabled = self.distribution["parameter_server"].get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_PS_ENV_NAME] = ps_enabled
-
-        mpi_enabled = False
-        if "mpi" in self.distribution:
-            mpi_dict = self.distribution["mpi"]
-            mpi_enabled = mpi_dict.get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_MPI_ENV_NAME] = mpi_enabled
-
-            if mpi_dict.get("processes_per_host"):
-                additional_hyperparameters[self.MPI_NUM_PROCESSES_PER_HOST] = mpi_dict.get(
-                    "processes_per_host"
-                )
-
-            additional_hyperparameters[self.MPI_CUSTOM_MPI_OPTIONS] = mpi_dict.get(
-                "custom_mpi_options", ""
-            )
-
-            if fw.get_mp_parameters(self.distribution):
-                additional_hyperparameters["mp_parameters"] = fw.get_mp_parameters(
-                    self.distribution
-                )
-
-        elif "modelparallel" in self.distribution.get("smdistributed", {}):
-            raise ValueError("Cannot use Model Parallelism without MPI enabled!")
-
-        if "smdistributed" in self.distribution:
-            # smdistributed strategy selected
-            smdistributed = self.distribution["smdistributed"]
-            smdataparallel_enabled = smdistributed.get("dataparallel", {}).get("enabled", False)
-            additional_hyperparameters[self.LAUNCH_SM_DDP_ENV_NAME] = smdataparallel_enabled
-            additional_hyperparameters[self.INSTANCE_TYPE] = self.instance_type
+        additional_hyperparameters = self._distribution_configuration(self.distribution)
 
         if self.model_dir is not False:
-            self.model_dir = self.model_dir or self._default_s3_path("model", mpi=mpi_enabled)
+            self.model_dir = self.model_dir or self._default_s3_path(
+                "model", mpi=additional_hyperparameters.get(self.LAUNCH_MPI_ENV_NAME, False)
+            )
             additional_hyperparameters["model_dir"] = self.model_dir
 
         hyperparameters.update(Framework._json_encode_hyperparameters(additional_hyperparameters))
diff --git a/tests/unit/test_estimator.py b/tests/unit/test_estimator.py
@@ -115,6 +115,12 @@
 
 LIST_TAGS_RESULT = {"Tags": [{"Key": "TagtestKey", "Value": "TagtestValue"}]}
 
+DISTRIBUTION_PS_ENABLED = {"parameter_server": {"enabled": True}}
+DISTRIBUTION_MPI_ENABLED = {
+    "mpi": {"enabled": True, "custom_mpi_options": "options", "processes_per_host": 2}
+}
+DISTRIBUTION_SM_DDP_ENABLED = {"smdistributed": {"dataparallel": {"enabled": True}}}
+
 
 class DummyFramework(Framework):
     _framework_name = "dummy"
@@ -3209,3 +3215,31 @@ def test_estimator_local_mode_ok(sagemaker_local_session):
         sagemaker_session=sagemaker_local_session,
         base_job_name="base_job_name",
     )
+
+
+def test_framework_distribution_configuration(sagemaker_session):
+    framework = DummyFramework(
+        entry_point="script",
+        role=ROLE,
+        sagemaker_session=sagemaker_session,
+        instance_count=INSTANCE_COUNT,
+        instance_type=INSTANCE_TYPE,
+    )
+    actual_ps = framework._distribution_configuration(distribution=DISTRIBUTION_PS_ENABLED)
+    expected_ps = {"sagemaker_parameter_server_enabled": True}
+    assert actual_ps == expected_ps
+
+    actual_mpi = framework._distribution_configuration(distribution=DISTRIBUTION_MPI_ENABLED)
+    expected_mpi = {
+        "sagemaker_mpi_enabled": True,
+        "sagemaker_mpi_num_of_processes_per_host": 2,
+        "sagemaker_mpi_custom_mpi_options": "options",
+    }
+    assert actual_mpi == expected_mpi
+
+    actual_ddp = framework._distribution_configuration(distribution=DISTRIBUTION_SM_DDP_ENABLED)
+    expected_ddp = {
+        "sagemaker_distributed_dataparallel_enabled": True,
+        "sagemaker_instance_type": INSTANCE_TYPE,
+    }
+    assert actual_ddp == expected_ddp