Fix bug in getting dataset requirements

ravinkohli · ravinkohli · commit f0994c0d367d · 2021-04-29T12:00:02.000+02:00
diff --git a/autoPyTorch/api/base_task.py b/autoPyTorch/api/base_task.py
@@ -259,7 +259,10 @@ def get_search_space(self, dataset: BaseDataset = None) -> ConfigurationSpace:
             return self.search_space
         elif dataset is not None:
             dataset_requirements = get_dataset_requirements(
-                info=dataset.get_required_dataset_info())
+                info=dataset.get_required_dataset_info(),
+                include=self.include_components,
+                exclude=self.exclude_components,
+                search_space_updates=self.search_space_updates)
             return get_configuration_space(info=dataset.get_dataset_properties(dataset_requirements),
                                            include=self.include_components,
                                            exclude=self.exclude_components,
@@ -771,7 +774,10 @@ def _search(
         # Initialise information needed for the experiment
         experiment_task_name = 'runSearch'
         dataset_requirements = get_dataset_requirements(
-            info=dataset.get_required_dataset_info())
+            info=dataset.get_required_dataset_info(),
+            include=self.include_components,
+            exclude=self.exclude_components,
+            search_space_updates=self.search_space_updates)
         self._dataset_requirements = dataset_requirements
         dataset_properties = dataset.get_dataset_properties(dataset_requirements)
         self._stopwatch.start_task(experiment_task_name)
@@ -1027,7 +1033,10 @@ def refit(
             self._logger = self._get_logger(self.dataset_name)
 
         dataset_requirements = get_dataset_requirements(
-            info=dataset.get_required_dataset_info())
+            info=dataset.get_required_dataset_info(),
+            include=self.include_components,
+            exclude=self.exclude_components,
+            search_space_updates=self.search_space_updates)
         dataset_properties = dataset.get_dataset_properties(dataset_requirements)
         self._backend.save_datamanager(dataset)
 
@@ -1098,7 +1107,10 @@ def fit(self,
 
         # get dataset properties
         dataset_requirements = get_dataset_requirements(
-            info=dataset.get_required_dataset_info())
+            info=dataset.get_required_dataset_info(),
+            include=self.include_components,
+            exclude=self.exclude_components,
+            search_space_updates=self.search_space_updates)
         dataset_properties = dataset.get_dataset_properties(dataset_requirements)
         self._backend.save_datamanager(dataset)
 
diff --git a/autoPyTorch/evaluation/abstract_evaluator.py b/autoPyTorch/evaluation/abstract_evaluator.py
@@ -70,6 +70,7 @@ class MyTraditionalTabularClassificationPipeline(BaseEstimator):
             An optional dictionary that is passed to the pipeline's steps. It complies
             a similar function as the kwargs
     """
+
     def __init__(self, config: str,
                  dataset_properties: Dict[str, Any],
                  random_state: Optional[Union[int, np.random.RandomState]] = None,
@@ -78,7 +79,7 @@ def __init__(self, config: str,
         self.dataset_properties = dataset_properties
         self.random_state = random_state
         self.init_params = init_params
-        self.pipeline = autoPyTorch.pipeline.traditional_tabular_classification.\
+        self.pipeline = autoPyTorch.pipeline.traditional_tabular_classification. \
             TraditionalTabularClassificationPipeline(dataset_properties=dataset_properties)
         configuration_space = self.pipeline.get_hyperparameter_search_space()
         default_configuration = configuration_space.get_default_configuration().get_dictionary()
@@ -129,6 +130,7 @@ class DummyClassificationPipeline(DummyClassifier):
             An optional dictionary that is passed to the pipeline's steps. It complies
             a similar function as the kwargs
     """
+
     def __init__(self, config: Configuration,
                  random_state: Optional[Union[int, np.random.RandomState]] = None,
                  init_params: Optional[Dict] = None
@@ -194,6 +196,7 @@ class DummyRegressionPipeline(DummyRegressor):
             An optional dictionary that is passed to the pipeline's steps. It complies
             a similar function as the kwargs
     """
+
     def __init__(self, config: Configuration,
                  random_state: Optional[Union[int, np.random.RandomState]] = None,
                  init_params: Optional[Dict] = None) -> None:
@@ -339,7 +342,11 @@ def __init__(self, backend: Backend,
                     raise ValueError('task {} not available'.format(self.task_type))
             self.predict_function = self._predict_proba
         self.dataset_properties = self.datamanager.get_dataset_properties(
-            get_dataset_requirements(self.datamanager.get_required_dataset_info()))
+            get_dataset_requirements(info=self.datamanager.get_required_dataset_info(),
+                                     include=self.include,
+                                     exclude=self.exclude,
+                                     search_space_updates=self.search_space_updates
+                                     ))
 
         self.additional_metrics: Optional[List[autoPyTorchMetric]] = None
         if all_supported_metrics:
@@ -483,9 +490,9 @@ def finish_up(self, loss: Dict[str, float], train_loss: Dict[str, float],
         return None
 
     def calculate_auxiliary_losses(
-            self,
-            Y_valid_pred: np.ndarray,
-            Y_test_pred: np.ndarray,
+        self,
+        Y_valid_pred: np.ndarray,
+        Y_test_pred: np.ndarray,
     ) -> Tuple[Optional[float], Optional[float]]:
 
         validation_loss: Optional[float] = None
@@ -504,10 +511,10 @@ def calculate_auxiliary_losses(
         return validation_loss, test_loss
 
     def file_output(
-            self,
-            Y_optimization_pred: np.ndarray,
-            Y_valid_pred: np.ndarray,
-            Y_test_pred: np.ndarray
+        self,
+        Y_optimization_pred: np.ndarray,
+        Y_valid_pred: np.ndarray,
+        Y_test_pred: np.ndarray
     ) -> Tuple[Optional[float], Dict]:
         # Abort if self.Y_optimization is None
         # self.Y_optimization can be None if we use partial-cv, then,
diff --git a/autoPyTorch/utils/pipeline.py b/autoPyTorch/utils/pipeline.py
@@ -4,7 +4,6 @@
 from ConfigSpace.configuration_space import ConfigurationSpace
 
 from autoPyTorch.constants import (
-    CLASSIFICATION_TASKS,
     IMAGE_TASKS,
     REGRESSION_TASKS,
     STRING_TO_TASK_TYPES,
@@ -23,75 +22,61 @@
 
 
 def get_dataset_requirements(info: Dict[str, Any],
-                             include_estimators: Optional[List[str]] = None,
-                             exclude_estimators: Optional[List[str]] = None,
-                             include_preprocessors: Optional[List[str]] = None,
-                             exclude_preprocessors: Optional[List[str]] = None
+                             include: Optional[Dict] = None,
+                             exclude: Optional[Dict] = None,
+                             search_space_updates: Optional[HyperparameterSearchSpaceUpdates] = None
                              ) -> List[FitRequirement]:
-    exclude = dict()
-    include = dict()
-    if include_preprocessors is not None and \
-            exclude_preprocessors is not None:
-        raise ValueError('Cannot specify include_preprocessors and '
-                         'exclude_preprocessors.')
-    elif include_preprocessors is not None:
-        include['feature_preprocessor'] = include_preprocessors
-    elif exclude_preprocessors is not None:
-        exclude['feature_preprocessor'] = exclude_preprocessors
-
     task_type: int = STRING_TO_TASK_TYPES[info['task_type']]
-    if include_estimators is not None and \
-            exclude_estimators is not None:
-        raise ValueError('Cannot specify include_estimators and '
-                         'exclude_estimators.')
-    elif include_estimators is not None:
-        if task_type in CLASSIFICATION_TASKS:
-            include['classifier'] = include_estimators
-        elif task_type in REGRESSION_TASKS:
-            include['regressor'] = include_estimators
-        else:
-            raise ValueError(info['task_type'])
-    elif exclude_estimators is not None:
-        if task_type in CLASSIFICATION_TASKS:
-            exclude['classifier'] = exclude_estimators
-        elif task_type in REGRESSION_TASKS:
-            exclude['regressor'] = exclude_estimators
-        else:
-            raise ValueError(info['task_type'])
-
     if task_type in REGRESSION_TASKS:
-        return _get_regression_dataset_requirements(info, include, exclude)
+        return _get_regression_dataset_requirements(info,
+                                                    include if include is not None else {},
+                                                    exclude if exclude is not None else {},
+                                                    search_space_updates=search_space_updates
+                                                    )
     else:
-        return _get_classification_dataset_requirements(info, include, exclude)
-
-
-def _get_regression_dataset_requirements(info: Dict[str, Any], include: Dict[str, List[str]],
-                                         exclude: Dict[str, List[str]]) -> List[FitRequirement]:
+        return _get_classification_dataset_requirements(info,
+                                                        include if include is not None else {},
+                                                        exclude if exclude is not None else {},
+                                                        search_space_updates=search_space_updates
+                                                        )
+
+
+def _get_regression_dataset_requirements(info: Dict[str, Any],
+                                         include: Optional[Dict] = None,
+                                         exclude: Optional[Dict] = None,
+                                         search_space_updates: Optional[HyperparameterSearchSpaceUpdates] = None
+                                         ) -> List[FitRequirement]:
     task_type = STRING_TO_TASK_TYPES[info['task_type']]
     if task_type in TABULAR_TASKS:
         fit_requirements = TabularRegressionPipeline(
             dataset_properties=info,
             include=include,
-            exclude=exclude
+            exclude=exclude,
+            search_space_updates=search_space_updates
         ).get_dataset_requirements()
         return fit_requirements
     else:
         raise ValueError("Task_type not supported")
 
 
-def _get_classification_dataset_requirements(info: Dict[str, Any], include: Dict[str, List[str]],
-                                             exclude: Dict[str, List[str]]) -> List[FitRequirement]:
+def _get_classification_dataset_requirements(info: Dict[str, Any],
+                                             include: Optional[Dict] = None,
+                                             exclude: Optional[Dict] = None,
+                                             search_space_updates: Optional[HyperparameterSearchSpaceUpdates] = None
+                                             ) -> List[FitRequirement]:
     task_type = STRING_TO_TASK_TYPES[info['task_type']]
 
     if task_type in TABULAR_TASKS:
         return TabularClassificationPipeline(
             dataset_properties=info,
-            include=include, exclude=exclude).\
+            include=include, exclude=exclude,
+            search_space_updates=search_space_updates). \
             get_dataset_requirements()
     elif task_type in IMAGE_TASKS:
         return ImageClassificationPipeline(
             dataset_properties=info,
-            include=include, exclude=exclude).\
+            include=include, exclude=exclude,
+            search_space_updates=search_space_updates). \
             get_dataset_requirements()
     else:
         raise ValueError("Task_type not supported")
@@ -147,7 +132,7 @@ def _get_classification_configuration_space(info: Dict[str, Any], include: Dict[
         return ImageClassificationPipeline(
             dataset_properties=info,
             include=include, exclude=exclude,
-            search_space_updates=search_space_updates).\
+            search_space_updates=search_space_updates). \
             get_hyperparameter_search_space()
     else:
         raise ValueError("Task_type not supported")