Add video img2img (huggingface#3900)

patrickvonplaten · web-flow · commit 7e2cc710e4fb · 2023-07-02T13:19:27.000+02:00
* Add image to image video

* Improve

* better naming

* make fix copies

* add docs

* finish tests

* trigger tests

* make style

* correct

* finish

* Fix more

* make style

* finish
diff --git a/__init__.py b/__init__.py
@@ -173,6 +173,7 @@
         VersatileDiffusionImageVariationPipeline,
         VersatileDiffusionPipeline,
         VersatileDiffusionTextToImagePipeline,
+        VideoToVideoSDPipeline,
         VQDiffusionPipeline,
     )
 
diff --git a/models/autoencoder_kl.py b/models/autoencoder_kl.py
@@ -229,7 +229,12 @@ def encode(self, x: torch.FloatTensor, return_dict: bool = True) -> AutoencoderK
         if self.use_tiling and (x.shape[-1] > self.tile_sample_min_size or x.shape[-2] > self.tile_sample_min_size):
             return self.tiled_encode(x, return_dict=return_dict)
 
-        h = self.encoder(x)
+        if self.use_slicing and x.shape[0] > 1:
+            encoded_slices = [self.encoder(x_slice) for x_slice in x.split(1)]
+            h = torch.cat(encoded_slices)
+        else:
+            h = self.encoder(x)
+
         moments = self.quant_conv(h)
         posterior = DiagonalGaussianDistribution(moments)
 
diff --git a/pipelines/__init__.py b/pipelines/__init__.py
@@ -89,7 +89,7 @@
         StableUnCLIPPipeline,
     )
     from .stable_diffusion_safe import StableDiffusionPipelineSafe
-    from .text_to_video_synthesis import TextToVideoSDPipeline, TextToVideoZeroPipeline
+    from .text_to_video_synthesis import TextToVideoSDPipeline, TextToVideoZeroPipeline, VideoToVideoSDPipeline
     from .unclip import UnCLIPImageVariationPipeline, UnCLIPPipeline
     from .unidiffuser import ImageTextPipelineOutput, UniDiffuserModel, UniDiffuserPipeline, UniDiffuserTextDecoder
     from .versatile_diffusion import (
diff --git a/pipelines/text_to_video_synthesis/__init__.py b/pipelines/text_to_video_synthesis/__init__.py
@@ -28,5 +28,6 @@ class TextToVideoSDPipelineOutput(BaseOutput):
 except OptionalDependencyNotAvailable:
     from ...utils.dummy_torch_and_transformers_objects import *  # noqa F403
 else:
-    from .pipeline_text_to_video_synth import TextToVideoSDPipeline  # noqa: F401
+    from .pipeline_text_to_video_synth import TextToVideoSDPipeline
+    from .pipeline_text_to_video_synth_img2img import VideoToVideoSDPipeline  # noqa: F401
     from .pipeline_text_to_video_zero import TextToVideoZeroPipeline
diff --git a/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth.py b/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth.py
@@ -672,6 +672,9 @@ def __call__(
                     if callback is not None and i % callback_steps == 0:
                         callback(i, t, latents)
 
+        if output_type == "latent":
+            return TextToVideoSDPipelineOutput(frames=latents)
+
         video_tensor = self.decode_latents(latents)
 
         if output_type == "pt":
diff --git a/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth_img2img.py b/pipelines/text_to_video_synthesis/pipeline_text_to_video_synth_img2img.py
diff --git a/utils/dummy_torch_and_transformers_objects.py b/utils/dummy_torch_and_transformers_objects.py

Original file line number	Diff line number	Diff line change
`@@ -173,6 +173,7 @@`
`173`	`173`	`VersatileDiffusionImageVariationPipeline,`
`174`	`174`	`VersatileDiffusionPipeline,`
`175`	`175`	`VersatileDiffusionTextToImagePipeline,`
	`176`	`+ VideoToVideoSDPipeline,`
`176`	`177`	`VQDiffusionPipeline,`
`177`	`178`	`)`
`178`	`179`
Original file line number	Diff line number	Diff line change
`@@ -89,7 +89,7 @@`
`89`	`89`	`StableUnCLIPPipeline,`
`90`	`90`	`)`
`91`	`91`	`from .stable_diffusion_safe import StableDiffusionPipelineSafe`
`92`		`- from .text_to_video_synthesis import TextToVideoSDPipeline, TextToVideoZeroPipeline`
	`92`	`+ from .text_to_video_synthesis import TextToVideoSDPipeline, TextToVideoZeroPipeline, VideoToVideoSDPipeline`
`93`	`93`	`from .unclip import UnCLIPImageVariationPipeline, UnCLIPPipeline`
`94`	`94`	`from .unidiffuser import ImageTextPipelineOutput, UniDiffuserModel, UniDiffuserPipeline, UniDiffuserTextDecoder`
`95`	`95`	`from .versatile_diffusion import (`