feat(docx-parser, pdf-parser): Implement max_output_tokens for response generation

arthurbrenno · arthurbrenno · commit e635cfd5fbdf · 2025-10-25T09:47:12.000-03:00
- Add max_output_tokens attribute to DocxFileParser and PDFFileParser for controlling token generation in responses
- Update relevant methods to utilize max_output_tokens in generation configuration
diff --git a/agentle/parsing/parsers/docx.py b/agentle/parsing/parsers/docx.py
@@ -20,6 +20,7 @@
 from rsb.models.field import Field
 
 
+from agentle.generations.models.generation.generation_config import GenerationConfig
 from agentle.generations.models.message_parts.file import FilePart
 from agentle.generations.models.structured_outputs_store.visual_media_description import (
     VisualMediaDescription,
@@ -182,6 +183,9 @@ class DocxFileParser(DocumentParser):
     Note: When this is enabled, most other configuration options are ignored as the AI handles all processing.
     """
 
+    max_output_tokens: int | None = Field(default=None)
+    """Maximum number of tokens to generate in the response."""
+
     async def parse_async(
         self,
         document_path: str,
@@ -517,6 +521,9 @@ def _try_convert_docx_to_pdf_headless(
                                             "Output clear, concise descriptions suitable for a 'Visual Content' section."
                                         ),
                                         response_schema=VisualMediaDescription,
+                                        generation_config=GenerationConfig(
+                                            max_output_tokens=self.max_output_tokens
+                                        ),
                                     )
                                     page_description = agent_response.parsed.md
                                     image_cache[page_hash] = (page_description, "")
@@ -663,6 +670,7 @@ def _convert_docx_to_pdf(input_path: str, out_dir: str) -> str | None:
                 model=self.model,
                 use_native_pdf_processing=True,
                 strategy=self.strategy,
+                max_output_tokens=self.max_output_tokens,
             )
 
             logger.debug("Delegating to PDFFileParser with native processing")
diff --git a/agentle/parsing/parsers/pdf.py b/agentle/parsing/parsers/pdf.py
@@ -258,6 +258,9 @@ class PDFFileParser(DocumentParser):
     # Metrics state
     last_parse_metrics: PDFParseMetrics | None = None
 
+    max_output_tokens: int | None = Field(default=None)
+    """Maximum number of tokens to generate in the response."""
+
     async def parse_async(self, document_path: str) -> ParsedFile:
         """
         Asynchronously parse a PDF document and convert it to a structured representation.
@@ -741,7 +744,7 @@ async def _call_provider_with_retry(
                             response_schema=VisualMediaDescription,
                             generation_config=GenerationConfig(
                                 max_output_tokens=self.max_output_tokens
-                            )
+                            ),
                         ),
                         timeout=self.image_description_timeout,
                     )
@@ -858,8 +861,7 @@ async def _parse_with_native_pdf_processing(self, document_path: str) -> ParsedF
                 prompt=[pdf_file_part, prompt],
                 response_schema=PDFPageExtraction,
                 generation_config=GenerationConfig(
-                    timeout_s=300.0,
-                    max_output_tokens=self.max_output_tokens
+                    timeout_s=300.0, max_output_tokens=self.max_output_tokens
                 ),
                 model=self.model,
             )