[fbsync] Adding min_size to classification and video models (#5223)

datumbox · facebook-github-bot · commit e0a4b0e8b9fe · 2022-01-26T01:17:34.000-08:00
Summary:
* Adding min_size as a required field.

* Adding min_size to classification models (quantized and not)

* Adding min_size to video models meta.

* Moving min_size to _COMMON_META

* Fixing extra line

Reviewed By: jdsgomes, prabhat00155

Differential Revision: D33739383

fbshipit-source-id: 4984d7aebd0e46d8ef9c769b553e8f0faea91654

Co-authored-by: Vasilis Vryniotis &lt;datumbox@users.noreply.github.com&gt;
diff --git a/test/test_prototype_models.py b/test/test_prototype_models.py
@@ -97,7 +97,7 @@ def test_naming_conventions(model_fn):
 )
 @run_if_test_with_prototype
 def test_schema_meta_validation(model_fn):
-    classification_fields = ["size", "categories", "acc@1", "acc@5"]
+    classification_fields = ["size", "categories", "acc@1", "acc@5", "min_size"]
     defaults = {
         "all": ["task", "architecture", "publication_year", "interpolation", "recipe", "num_params"],
         "models": classification_fields,
diff --git a/torchvision/prototype/models/alexnet.py b/torchvision/prototype/models/alexnet.py
@@ -23,6 +23,7 @@ class AlexNet_Weights(WeightsEnum):
             "publication_year": 2012,
             "num_params": 61100840,
             "size": (224, 224),
+            "min_size": (63, 63),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#alexnet-and-vgg",
diff --git a/torchvision/prototype/models/densenet.py b/torchvision/prototype/models/densenet.py
@@ -68,6 +68,7 @@ def _densenet(
     "architecture": "DenseNet",
     "publication_year": 2016,
     "size": (224, 224),
+    "min_size": (29, 29),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "recipe": "https://github.com/pytorch/vision/pull/116",
diff --git a/torchvision/prototype/models/efficientnet.py b/torchvision/prototype/models/efficientnet.py
@@ -66,6 +66,7 @@ def _efficientnet(
     "task": "image_classification",
     "architecture": "EfficientNet",
     "publication_year": 2019,
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BICUBIC,
     "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#efficientnet",
diff --git a/torchvision/prototype/models/googlenet.py b/torchvision/prototype/models/googlenet.py
@@ -24,6 +24,7 @@ class GoogLeNet_Weights(WeightsEnum):
             "publication_year": 2014,
             "num_params": 6624904,
             "size": (224, 224),
+            "min_size": (15, 15),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#googlenet",
diff --git a/torchvision/prototype/models/inception.py b/torchvision/prototype/models/inception.py
@@ -23,6 +23,7 @@ class Inception_V3_Weights(WeightsEnum):
             "publication_year": 2015,
             "num_params": 27161264,
             "size": (299, 299),
+            "min_size": (75, 75),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#inception-v3",
diff --git a/torchvision/prototype/models/mnasnet.py b/torchvision/prototype/models/mnasnet.py
@@ -28,6 +28,7 @@
     "architecture": "MNASNet",
     "publication_year": 2018,
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "recipe": "https://github.com/1e100/mnasnet_trainer",
diff --git a/torchvision/prototype/models/mobilenetv2.py b/torchvision/prototype/models/mobilenetv2.py
@@ -23,6 +23,7 @@ class MobileNet_V2_Weights(WeightsEnum):
             "publication_year": 2018,
             "num_params": 3504872,
             "size": (224, 224),
+            "min_size": (1, 1),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#mobilenetv2",
diff --git a/torchvision/prototype/models/mobilenetv3.py b/torchvision/prototype/models/mobilenetv3.py
@@ -42,6 +42,7 @@ def _mobilenet_v3(
     "architecture": "MobileNetV3",
     "publication_year": 2019,
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
 }
diff --git a/torchvision/prototype/models/quantization/googlenet.py b/torchvision/prototype/models/quantization/googlenet.py
@@ -33,6 +33,7 @@ class GoogLeNet_QuantizedWeights(WeightsEnum):
             "publication_year": 2014,
             "num_params": 6624904,
             "size": (224, 224),
+            "min_size": (15, 15),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "backend": "fbgemm",
diff --git a/torchvision/prototype/models/quantization/inception.py b/torchvision/prototype/models/quantization/inception.py
@@ -32,6 +32,7 @@ class Inception_V3_QuantizedWeights(WeightsEnum):
             "publication_year": 2015,
             "num_params": 27161264,
             "size": (299, 299),
+            "min_size": (75, 75),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "backend": "fbgemm",
diff --git a/torchvision/prototype/models/quantization/mobilenetv2.py b/torchvision/prototype/models/quantization/mobilenetv2.py
@@ -33,6 +33,7 @@ class MobileNet_V2_QuantizedWeights(WeightsEnum):
             "publication_year": 2018,
             "num_params": 3504872,
             "size": (224, 224),
+            "min_size": (1, 1),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "backend": "qnnpack",
diff --git a/torchvision/prototype/models/quantization/mobilenetv3.py b/torchvision/prototype/models/quantization/mobilenetv3.py
@@ -66,6 +66,7 @@ class MobileNet_V3_Large_QuantizedWeights(WeightsEnum):
             "publication_year": 2019,
             "num_params": 5483032,
             "size": (224, 224),
+            "min_size": (1, 1),
             "categories": _IMAGENET_CATEGORIES,
             "interpolation": InterpolationMode.BILINEAR,
             "backend": "qnnpack",
diff --git a/torchvision/prototype/models/quantization/resnet.py b/torchvision/prototype/models/quantization/resnet.py
@@ -56,6 +56,7 @@ def _resnet(
 _COMMON_META = {
     "task": "image_classification",
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "backend": "fbgemm",
diff --git a/torchvision/prototype/models/quantization/shufflenetv2.py b/torchvision/prototype/models/quantization/shufflenetv2.py
@@ -55,6 +55,7 @@ def _shufflenetv2(
     "architecture": "ShuffleNetV2",
     "publication_year": 2018,
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "backend": "fbgemm",
diff --git a/torchvision/prototype/models/regnet.py b/torchvision/prototype/models/regnet.py
@@ -50,6 +50,7 @@
     "architecture": "RegNet",
     "publication_year": 2020,
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
 }
diff --git a/torchvision/prototype/models/resnet.py b/torchvision/prototype/models/resnet.py
@@ -54,6 +54,7 @@ def _resnet(
 _COMMON_META = {
     "task": "image_classification",
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
 }
diff --git a/torchvision/prototype/models/shufflenetv2.py b/torchvision/prototype/models/shufflenetv2.py
@@ -45,6 +45,7 @@ def _shufflenetv2(
     "architecture": "ShuffleNetV2",
     "publication_year": 2018,
     "size": (224, 224),
+    "min_size": (1, 1),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "recipe": "https://github.com/barrh/Shufflenet-v2-Pytorch/tree/v0.1.0",
diff --git a/torchvision/prototype/models/squeezenet.py b/torchvision/prototype/models/squeezenet.py
@@ -30,6 +30,7 @@ class SqueezeNet1_0_Weights(WeightsEnum):
         transforms=partial(ImageNetEval, crop_size=224),
         meta={
             **_COMMON_META,
+            "min_size": (21, 21),
             "num_params": 1248424,
             "acc@1": 58.092,
             "acc@5": 80.420,
@@ -44,6 +45,7 @@ class SqueezeNet1_1_Weights(WeightsEnum):
         transforms=partial(ImageNetEval, crop_size=224),
         meta={
             **_COMMON_META,
+            "min_size": (17, 17),
             "num_params": 1235496,
             "acc@1": 58.178,
             "acc@5": 80.624,
diff --git a/torchvision/prototype/models/vgg.py b/torchvision/prototype/models/vgg.py
@@ -45,6 +45,7 @@ def _vgg(cfg: str, batch_norm: bool, weights: Optional[WeightsEnum], progress: b
     "architecture": "VGG",
     "publication_year": 2014,
     "size": (224, 224),
+    "min_size": (32, 32),
     "categories": _IMAGENET_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#alexnet-and-vgg",
diff --git a/torchvision/prototype/models/video/resnet.py b/torchvision/prototype/models/video/resnet.py
@@ -55,6 +55,7 @@ def _video_resnet(
     "task": "video_classification",
     "publication_year": 2017,
     "size": (112, 112),
+    "min_size": (1, 1),
     "categories": _KINETICS400_CATEGORIES,
     "interpolation": InterpolationMode.BILINEAR,
     "recipe": "https://github.com/pytorch/vision/tree/main/references/video_classification",
diff --git a/torchvision/prototype/models/vision_transformer.py b/torchvision/prototype/models/vision_transformer.py
@@ -45,6 +45,7 @@ class ViT_B_16_Weights(WeightsEnum):
             **_COMMON_META,
             "num_params": 86567656,
             "size": (224, 224),
+            "min_size": (224, 224),
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#vit_b_16",
             "acc@1": 81.072,
             "acc@5": 95.318,
@@ -61,6 +62,7 @@ class ViT_B_32_Weights(WeightsEnum):
             **_COMMON_META,
             "num_params": 88224232,
             "size": (224, 224),
+            "min_size": (224, 224),
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#vit_b_32",
             "acc@1": 75.912,
             "acc@5": 92.466,
@@ -77,6 +79,7 @@ class ViT_L_16_Weights(WeightsEnum):
             **_COMMON_META,
             "num_params": 304326632,
             "size": (224, 224),
+            "min_size": (224, 224),
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#vit_l_16",
             "acc@1": 79.662,
             "acc@5": 94.638,
@@ -93,6 +96,7 @@ class ViT_L_32_Weights(WeightsEnum):
             **_COMMON_META,
             "num_params": 306535400,
             "size": (224, 224),
+            "min_size": (224, 224),
             "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#vit_l_32",
             "acc@1": 76.972,
             "acc@5": 93.07,

Original file line number	Diff line number	Diff line change
`@@ -97,7 +97,7 @@ def test_naming_conventions(model_fn):`
`97`	`97`	`)`
`98`	`98`	`@run_if_test_with_prototype`
`99`	`99`	`def test_schema_meta_validation(model_fn):`
`100`		`- classification_fields = ["size", "categories", "acc@1", "acc@5"]`
	`100`	`+ classification_fields = ["size", "categories", "acc@1", "acc@5", "min_size"]`
`101`	`101`	`defaults = {`
`102`	`102`	`"all": ["task", "architecture", "publication_year", "interpolation", "recipe", "num_params"],`
`103`	`103`	`"models": classification_fields,`
Original file line number	Diff line number	Diff line change
`@@ -42,6 +42,7 @@ def _mobilenet_v3(`
`42`	`42`	`"architecture": "MobileNetV3",`
`43`	`43`	`"publication_year": 2019,`
`44`	`44`	`"size": (224, 224),`
	`45`	`+ "min_size": (1, 1),`
`45`	`46`	`"categories": _IMAGENET_CATEGORIES,`
`46`	`47`	`"interpolation": InterpolationMode.BILINEAR,`
`47`	`48`	`}`
Original file line number	Diff line number	Diff line change
`@@ -50,6 +50,7 @@`
`50`	`50`	`"architecture": "RegNet",`
`51`	`51`	`"publication_year": 2020,`
`52`	`52`	`"size": (224, 224),`
	`53`	`+ "min_size": (1, 1),`
`53`	`54`	`"categories": _IMAGENET_CATEGORIES,`
`54`	`55`	`"interpolation": InterpolationMode.BILINEAR,`
`55`	`56`	`}`
Original file line number	Diff line number	Diff line change
`@@ -54,6 +54,7 @@ def _resnet(`
`54`	`54`	`_COMMON_META = {`
`55`	`55`	`"task": "image_classification",`
`56`	`56`	`"size": (224, 224),`
	`57`	`+ "min_size": (1, 1),`
`57`	`58`	`"categories": _IMAGENET_CATEGORIES,`
`58`	`59`	`"interpolation": InterpolationMode.BILINEAR,`
`59`	`60`	`}`