huggingface
diff --git a/‎docs/source/en/model_doc/parakeet.md‎
Lines changed: 2 additions & 2 deletions b/‎docs/source/en/model_doc/parakeet.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/integrations/accelerate.py‎
Lines changed: 1 addition & 1 deletion b/‎src/transformers/integrations/accelerate.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/auto/tokenization_auto.py‎
Lines changed: 126 additions & 155 deletions b/‎src/transformers/models/auto/tokenization_auto.py‎
Lines changed: 126 additions & 155 deletions
diff --git a/‎src/transformers/models/blenderbot/tokenization_blenderbot.py‎
Lines changed: 6 additions & 7 deletions b/‎src/transformers/models/blenderbot/tokenization_blenderbot.py‎
Lines changed: 6 additions & 7 deletions
diff --git a/‎src/transformers/models/canine/tokenization_canine.py‎
Lines changed: 2 additions & 0 deletions b/‎src/transformers/models/canine/tokenization_canine.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/transformers/models/code_llama/tokenization_code_llama.py‎
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/code_llama/tokenization_code_llama.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/layoutlmv2/tokenization_layoutlmv2.py‎
Lines changed: 1 addition & 0 deletions b/‎src/transformers/models/layoutlmv2/tokenization_layoutlmv2.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/transformers/models/nougat/tokenization_nougat.py‎
Lines changed: 11 additions & 16 deletions b/‎src/transformers/models/nougat/tokenization_nougat.py‎
Lines changed: 11 additions & 16 deletions
diff --git a/‎src/transformers/models/parakeet/convert_nemo_to_hf.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/parakeet/convert_nemo_to_hf.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎…s/parakeet/tokenization_parakeet_fast.py‎ ‎…models/parakeet/tokenization_parakeet.py‎src/transformers/models/parakeet/tokenization_parakeet_fast.py renamed to src/transformers/models/parakeet/tokenization_parakeet.py
Lines changed: 3 additions & 3 deletions b/‎…s/parakeet/tokenization_parakeet_fast.py‎ ‎…models/parakeet/tokenization_parakeet.py‎src/transformers/models/parakeet/tokenization_parakeet_fast.py renamed to src/transformers/models/parakeet/tokenization_parakeet.py
Lines changed: 3 additions & 3 deletions
@@ -188,9 +188,9 @@ outputs = model(**inputs)
 outputs.loss.backward()
 ```
 
-## ParakeetTokenizerFast
+## ParakeetTokenizer
 
-[[autodoc]] ParakeetTokenizerFast
+[[autodoc]] ParakeetTokenizer
 
 ## ParakeetFeatureExtractor
 
 
@@ -293,7 +293,7 @@ def _get_device_map(
         # especially if the model uses WeightConverter (because there will be some uncontrollable cpu memory spikes during
         # the conversions before we resave the weights). In those cases, it's better to offload to disk a bit more
         # if we were in-between, as otherwise we blow-up cpu memory
-        if max_memory is None:
+        if max_memory is None and "cpu" in inferred_max_memory:
             inferred_max_memory["cpu"] *= 0.90
 
         if hf_quantizer is not None:
 
@@ -160,13 +160,6 @@ def __init__(
 
         self._tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=add_prefix_space)
         self._tokenizer.decoder = decoders.ByteLevel()
-        self._tokenizer.post_processor = processors.RobertaProcessing(
-            sep=(str(eos_token), self._vocab.get(str(eos_token), 2)),
-            cls=(str(bos_token), self._vocab.get(str(bos_token), 0)),
-            add_prefix_space=add_prefix_space,
-            trim_offsets=True,
-        )
-
         super().__init__(
             bos_token=bos_token,
             eos_token=eos_token,
@@ -178,6 +171,12 @@ def __init__(
             add_prefix_space=add_prefix_space,
             **kwargs,
         )
+        self._tokenizer.post_processor = processors.RobertaProcessing(
+            sep=(str(eos_token), self.eos_token_id),
+            cls=(str(bos_token), self.bos_token_id),
+            add_prefix_space=add_prefix_space,
+            trim_offsets=True,
+        )
 
 
 __all__ = ["BlenderbotTokenizer"]
@@ -67,6 +67,8 @@ class CanineTokenizer(PreTrainedTokenizer):
                 The maximum sentence length the model accepts.
     """
 
+    model_input_names = ["input_ids", "attention_mask", "token_type_ids"]
+
     def __init__(
         self,
         bos_token=chr(CLS),
 
@@ -158,7 +158,7 @@ def __init__(
                 unk_token=str(unk_token),
             )
         )
-        prepend_scheme = "first" if self.add_prefix_space else "none"
+        prepend_scheme = "first" if self.add_prefix_space else "never"
         self._tokenizer.pre_tokenizer = pre_tokenizers.Metaspace(
             replacement="▁", prepend_scheme=prepend_scheme, split=False
         )
 
@@ -160,6 +160,7 @@ class LayoutLMv2Tokenizer(TokenizersBackend):
 
     vocab_files_names = VOCAB_FILES_NAMES
     model = models.WordPiece
+    model_input_names = ["input_ids", "attention_mask", "token_type_ids"]
 
     def __init__(
         self,
 
@@ -441,31 +441,26 @@ def __init__(
         )
         self._tokenizer.decoder = decoders.ByteLevel(add_prefix_space=True, trim_offsets=True, use_regex=True)
 
-        # Set up post processor with bos and eos tokens
-        bos_token_id = self._vocab.get(str(bos_token), 0)
-        eos_token_id = self._vocab.get(str(eos_token), 2)
-        pad_token_id = self._vocab.get(str(pad_token), 1)
+        super().__init__(
+            errors=errors,
+            unk_token=unk_token,
+            bos_token=bos_token,
+            eos_token=eos_token,
+            pad_token=pad_token,
+            **kwargs,
+        )
         self._tokenizer.post_processor = processors.TemplateProcessing(
             single=f"{bos_token}:0 $A:0 {eos_token}:0",
             pair="$A:0 $B:1",
             special_tokens=[
-                (str(eos_token), eos_token_id),
-                (str(bos_token), bos_token_id),
+                (str(eos_token), self.eos_token_id),
+                (str(bos_token), self.bos_token_id),
             ],
         )
 
         # Enable truncation and padding
         self._tokenizer.enable_truncation(max_length=4096)
-        self._tokenizer.enable_padding(length=4096, pad_id=pad_token_id, pad_token=str(pad_token))
-
-        super().__init__(
-            errors=errors,
-            unk_token=unk_token,
-            bos_token=bos_token,
-            eos_token=eos_token,
-            pad_token=pad_token,
-            **kwargs,
-        )
+        self._tokenizer.enable_padding(length=4096, pad_id=self.pad_token_id, pad_token=str(pad_token))
 
     def remove_hallucinated_references(self, text: str) -> str:
         """
 
@@ -30,7 +30,7 @@
     ParakeetFeatureExtractor,
     ParakeetForCTC,
     ParakeetProcessor,
-    ParakeetTokenizerFast,
+    ParakeetTokenizer,
 )
 from transformers.convert_slow_tokenizer import ParakeetConverter
 from transformers.utils.hub import cached_file
@@ -151,7 +151,7 @@ def extract_nemo_archive(nemo_file_path: str, extract_dir: str) -> dict[str, str
 
 def write_processor(nemo_config: dict, model_files, output_dir, push_to_repo_id=None):
     tokenizer_converted = ParakeetConverter(model_files["tokenizer_model_file"]).converted()
-    tokenizer_converted_fast = ParakeetTokenizerFast(
+    tokenizer_converted_fast = ParakeetTokenizer(
         tokenizer_object=tokenizer_converted,
         clean_up_tokenization_spaces=False,
     )
 
@@ -16,10 +16,10 @@
 import itertools
 from typing import Optional, Union
 
-from ...tokenization_utils_tokenizers import PreTrainedTokenizerFast
+from ...tokenization_utils_tokenizers import TokenizersBackend
 
 
-class ParakeetTokenizerFast(PreTrainedTokenizerFast):
+class ParakeetTokenizer(TokenizersBackend):
     """
     Inherits all methods from [`PreTrainedTokenizerFast`]. Users should refer to this superclass for more information regarding those methods,
     except for `_decode` which is overridden to adapt it to CTC decoding:
@@ -51,4 +51,4 @@ def _decode(
         )
 
 
-__all__ = ["ParakeetTokenizerFast"]
+__all__ = ["ParakeetTokenizer"]
Original file line number	Diff line number	Diff line change
`@@ -158,7 +158,7 @@ def __init__(`
`158`	`158`	`unk_token=str(unk_token),`
`159`	`159`	`)`
`160`	`160`	`)`
`161`		`- prepend_scheme = "first" if self.add_prefix_space else "none"`
	`161`	`+ prepend_scheme = "first" if self.add_prefix_space else "never"`
`162`	`162`	`self._tokenizer.pre_tokenizer = pre_tokenizers.Metaspace(`
`163`	`163`	`replacement="▁", prepend_scheme=prepend_scheme, split=False`
`164`	`164`	`)`