paragon-intelligence
diff --git a/‎agentle/agents/whatsapp/providers/base/whatsapp_provider.py‎
Lines changed: 20 additions & 0 deletions b/‎agentle/agents/whatsapp/providers/base/whatsapp_provider.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎agentle/agents/whatsapp/providers/evolution/evolution_api_provider.py‎
Lines changed: 83 additions & 0 deletions b/‎agentle/agents/whatsapp/providers/evolution/evolution_api_provider.py‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎agentle/agents/whatsapp/providers/meta/meta_whatsapp_provider.py‎
Lines changed: 126 additions & 0 deletions b/‎agentle/agents/whatsapp/providers/meta/meta_whatsapp_provider.py‎
Lines changed: 126 additions & 0 deletions
diff --git a/‎agentle/agents/whatsapp/whatsapp_bot.py‎
Lines changed: 79 additions & 8 deletions b/‎agentle/agents/whatsapp/whatsapp_bot.py‎
Lines changed: 79 additions & 8 deletions
diff --git a/‎agentle/storage/__init__.py‎
Lines changed: 11 additions & 0 deletions b/‎agentle/storage/__init__.py‎
Lines changed: 11 additions & 0 deletions
@@ -101,6 +101,26 @@ async def send_audio_message(
         """
         pass
 
+    @abstractmethod
+    async def send_audio_message_by_url(
+        self,
+        to: str,
+        audio_url: str,
+        quoted_message_id: str | None = None,
+    ) -> WhatsAppMediaMessage:
+        """
+        Send an audio message via URL.
+
+        Args:
+            to: Recipient phone number
+            audio_url: URL of the audio file
+            quoted_message_id: Optional ID of message to quote/reply to
+
+        Returns:
+            The sent audio message
+        """
+        pass
+
     @abstractmethod
     async def send_typing_indicator(self, to: str, duration: int = 3) -> None:
         """
 
@@ -1029,6 +1029,89 @@ async def send_audio_message(
             )
             raise EvolutionAPIError(f"Failed to send audio message: {e}")
 
+    async def send_audio_message_by_url(
+        self,
+        to: str,
+        audio_url: str,
+        quoted_message_id: str | None = None,
+    ) -> WhatsAppMediaMessage:
+        """Send an audio message via URL using Evolution API."""
+        logger.info(f"Sending audio message via URL to {to}: {audio_url}")
+        if quoted_message_id:
+            logger.debug(f"Audio message is quoting message ID: {quoted_message_id}")
+
+        try:
+            # CRITICAL FIX: Check if there's a stored remoteJid for this contact
+            session = await self.get_session(to)
+            remote_jid = session.context_data.get("remote_jid") if session else None
+
+            if remote_jid:
+                logger.info(
+                    f"🔑 Using stored remoteJid for audio URL to {to}: {remote_jid}"
+                )
+                normalized_to = remote_jid
+            else:
+                normalized_to = self._normalize_phone(to)
+                logger.debug(f"Normalized phone number: {to} -> {normalized_to}")
+
+            payload: MutableMapping[str, Any] = {
+                "number": normalized_to,
+                "audioUrl": audio_url,  # Use URL instead of base64
+            }
+
+            if quoted_message_id:
+                payload["quoted"] = {"key": {"id": quoted_message_id}}
+
+            url = self._build_url(f"sendWhatsAppAudio/{self.config.instance_name}")
+            response_data = await self._make_request_with_resilience(
+                "POST", url, payload, expected_status=[200, 201]
+            )
+
+            message_id = response_data["key"]["id"]
+            from_jid = response_data["key"]["remoteJid"]
+
+            message = WhatsAppAudioMessage(
+                id=message_id,
+                from_number=from_jid,
+                to_number=to,
+                timestamp=datetime.now(),
+                status=WhatsAppMessageStatus.SENT,
+                media_url=audio_url,  # Store the URL
+                media_mime_type="audio/ogg",
+                quoted_message_id=quoted_message_id,
+                is_voice_note=True,
+            )
+
+            logger.info(
+                f"Audio message sent successfully via URL to {to}: {message_id}",
+                extra={
+                    "message_id": message_id,
+                    "to_number": to,
+                    "normalized_to": normalized_to,
+                    "from_jid": from_jid,
+                    "audio_url": audio_url,
+                    "has_quote": quoted_message_id is not None,
+                },
+            )
+            return message
+
+        except EvolutionAPIError:
+            logger.error(
+                f"Evolution API error while sending audio message via URL to {to}"
+            )
+            raise
+        except Exception as e:
+            logger.error(
+                f"Failed to send audio message via URL to {to}: {type(e).__name__}: {e}",
+                extra={
+                    "to_number": to,
+                    "audio_url": audio_url,
+                    "error_type": type(e).__name__,
+                    "has_quote": quoted_message_id is not None,
+                },
+            )
+            raise EvolutionAPIError(f"Failed to send audio message via URL: {e}")
+
     async def send_typing_indicator(self, to: str, duration: int = 3) -> None:
         """Send typing indicator via Evolution API."""
         logger.debug(f"Sending typing indicator to {to} for {duration}s")
 
@@ -837,3 +837,129 @@ def get_stats(self) -> Mapping[str, Any]:
         base_stats["session_stats"] = session_stats
 
         return base_stats
+
+    async def send_audio_message(
+        self,
+        to: str,
+        audio_base64: str,
+        quoted_message_id: str | None = None,
+    ) -> WhatsAppMediaMessage:
+        """Send an audio message via Meta WhatsApp Business API."""
+        logger.info(f"Sending audio message to {to}")
+
+        try:
+            # Upload audio to Meta first
+            media_id = await self._upload_audio_base64(audio_base64)
+
+            # Send audio message
+            payload = {
+                "messaging_product": "whatsapp",
+                "to": self._normalize_phone(to),
+                "type": "audio",
+                "audio": {"id": media_id},
+            }
+
+            if quoted_message_id:
+                payload["context"] = {"message_id": quoted_message_id}
+
+            url = self._build_url(f"{self.config.phone_number_id}/messages")
+            response_data = await self._make_request("POST", url, payload)
+
+            message_id = response_data["messages"][0]["id"]
+
+            return WhatsAppAudioMessage(
+                id=message_id,
+                from_number=self.config.phone_number_id,
+                to_number=to,
+                timestamp=datetime.now(),
+                status=WhatsAppMessageStatus.SENT,
+                media_url=media_id,
+                media_mime_type="audio/ogg",
+                quoted_message_id=quoted_message_id,
+                is_voice_note=True,
+            )
+
+        except Exception as e:
+            logger.error(f"Failed to send audio message: {e}")
+            raise MetaWhatsAppError(f"Failed to send audio message: {e}")
+
+    async def send_audio_message_by_url(
+        self,
+        to: str,
+        audio_url: str,
+        quoted_message_id: str | None = None,
+    ) -> WhatsAppMediaMessage:
+        """Send an audio message via URL using Meta WhatsApp Business API."""
+        logger.info(f"Sending audio message via URL to {to}: {audio_url}")
+
+        try:
+            # Upload audio from URL to Meta
+            media_id = await self._upload_media(audio_url, "audio")
+
+            # Send audio message
+            payload = {
+                "messaging_product": "whatsapp",
+                "to": self._normalize_phone(to),
+                "type": "audio",
+                "audio": {"id": media_id},
+            }
+
+            if quoted_message_id:
+                payload["context"] = {"message_id": quoted_message_id}
+
+            url = self._build_url(f"{self.config.phone_number_id}/messages")
+            response_data = await self._make_request("POST", url, payload)
+
+            message_id = response_data["messages"][0]["id"]
+
+            return WhatsAppAudioMessage(
+                id=message_id,
+                from_number=self.config.phone_number_id,
+                to_number=to,
+                timestamp=datetime.now(),
+                status=WhatsAppMessageStatus.SENT,
+                media_url=audio_url,
+                media_mime_type="audio/ogg",
+                quoted_message_id=quoted_message_id,
+                is_voice_note=True,
+            )
+
+        except Exception as e:
+            logger.error(f"Failed to send audio message via URL: {e}")
+            raise MetaWhatsAppError(f"Failed to send audio message via URL: {e}")
+
+    async def _upload_audio_base64(self, audio_base64: str) -> str:
+        """Upload base64 audio to Meta and return media ID."""
+        try:
+            import base64
+
+            # Decode base64 to bytes
+            audio_data = base64.b64decode(audio_base64)
+
+            # Upload to Meta
+            upload_url = self._build_url(f"{self.config.phone_number_id}/media")
+
+            form_data = aiohttp.FormData()
+            form_data.add_field("messaging_product", "whatsapp")
+            form_data.add_field("type", "audio")
+            form_data.add_field(
+                "file",
+                audio_data,
+                filename="audio.ogg",
+                content_type="audio/ogg",
+            )
+
+            # Create a separate session for file upload
+            headers = {"Authorization": f"Bearer {self.config.access_token}"}
+            timeout = aiohttp.ClientTimeout(total=self.config.timeout)
+
+            async with aiohttp.ClientSession(
+                headers=headers, timeout=timeout
+            ) as upload_session:
+                async with upload_session.post(upload_url, data=form_data) as response:
+                    response_data = await self._handle_response(response, 200)
+                    return response_data["id"]
+
+        except Exception as e:
+            logger.error(f"Failed to upload audio base64: {e}")
+            raise MetaWhatsAppError(f"Failed to upload audio base64: {e}")
@@ -54,6 +54,7 @@
 from agentle.generations.models.messages.user_message import UserMessage
 from agentle.generations.tools.tool import Tool
 from agentle.generations.tools.tool_execution_result import ToolExecutionResult
+from agentle.storage.file_storage_manager import FileStorageManager
 from agentle.tts.tts_provider import TtsProvider
 
 if TYPE_CHECKING:
@@ -136,6 +137,7 @@ class WhatsAppBot(BaseModel):
     agent: Agent[Any]
     provider: WhatsAppProvider
     tts_provider: TtsProvider | None = Field(default=None)
+    file_storage_manager: FileStorageManager | None = Field(default=None)
     config: WhatsAppBotConfig = Field(default_factory=WhatsAppBotConfig)
 
     # REMOVED: context_manager field - no longer needed
@@ -2116,14 +2118,71 @@ async def _send_response(
                         response_text, config=self.config.speech_config
                     )
 
-                    # Send audio message
-                    await self.provider.send_audio_message(
-                        to=to,
-                        audio_base64=speech_result.audio,
-                        quoted_message_id=reply_to
-                        if self.config.quote_messages
-                        else None,
-                    )
+                    # Try to upload to file storage if available
+                    audio_url = None
+                    if self.file_storage_manager:
+                        try:
+                            import base64
+                            import time
+
+                            # Decode base64 to bytes
+                            audio_bytes = base64.b64decode(speech_result.audio)
+
+                            # Generate unique filename
+                            timestamp = int(time.time())
+                            extension = self._get_audio_extension(speech_result.format)
+                            filename = f"tts_{timestamp}.{extension}"
+
+                            # Upload to storage
+                            audio_url = await self.file_storage_manager.upload_file(
+                                file_data=audio_bytes,
+                                filename=filename,
+                                mime_type=str(speech_result.mime_type),
+                            )
+
+                            logger.info(f"[TTS] Audio uploaded to storage: {audio_url}")
+
+                        except Exception as e:
+                            logger.warning(
+                                f"[TTS] Failed to upload to storage, falling back to base64: {e}"
+                            )
+                            audio_url = None
+
+                    # Send audio message (URL or base64)
+                    if audio_url:
+                        # Try URL method first
+                        try:
+                            await self.provider.send_audio_message_by_url(
+                                to=to,
+                                audio_url=audio_url,
+                                quoted_message_id=reply_to
+                                if self.config.quote_messages
+                                else None,
+                            )
+                            logger.info(f"[TTS] Audio sent via URL to {to}")
+                        except Exception as e:
+                            logger.warning(
+                                f"[TTS] URL method failed, falling back to base64: {e}"
+                            )
+                            # Fallback to base64
+                            await self.provider.send_audio_message(
+                                to=to,
+                                audio_base64=speech_result.audio,
+                                quoted_message_id=reply_to
+                                if self.config.quote_messages
+                                else None,
+                            )
+                            logger.info(f"[TTS] Audio sent via base64 to {to}")
+                    else:
+                        # Use base64 method (current behavior)
+                        await self.provider.send_audio_message(
+                            to=to,
+                            audio_base64=speech_result.audio,
+                            quoted_message_id=reply_to
+                            if self.config.quote_messages
+                            else None,
+                        )
+                        logger.info(f"[TTS] Audio sent via base64 to {to}")
 
                     logger.info(
                         f"[TTS] Successfully sent audio response to {to}",
@@ -2319,6 +2378,18 @@ def _validate_tts_configuration(self) -> bool:
             )
             return False
 
+    def _get_audio_extension(self, format_type: Any) -> str:
+        """Get file extension from TTS format."""
+        format_str = str(format_type)
+        if "mp3" in format_str:
+            return "mp3"
+        elif "wav" in format_str:
+            return "wav"
+        elif "ogg" in format_str:
+            return "ogg"
+        else:
+            return "mp3"  # default
+
     def _split_message_by_line_breaks(self, text: str) -> Sequence[str]:
         """Split message by line breaks first, then by length if needed with enhanced validation."""
         if not text or not text.strip():
 
@@ -0,0 +1,11 @@
+"""Storage module for file management."""
+
+from agentle.storage.file_storage_manager import FileStorageManager
+from agentle.storage.local_file_storage_manager import LocalFileStorageManager
+from agentle.storage.s3_file_storage_manager import S3FileStorageManager
+
+__all__ = [
+    "FileStorageManager",
+    "LocalFileStorageManager",
+    "S3FileStorageManager",
+]