Aller au contenu principal
OutilsAWS ML Blog2h

Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Amazon Web Services et Pipecat ont publié un guide détaillé sur le déploiement d'agents vocaux intelligents en production, s'appuyant sur la nouvelle infrastructure Amazon Bedrock AgentCore Runtime. La solution combine Pipecat, un framework open source spécialisé dans les pipelines audio temps réel, avec l'environnement serverless d'AWS pour permettre des conversations vocales naturelles sur le web, le mobile et la téléphonie. L'architecture prend en charge trois protocoles de transport réseau : WebSockets, WebRTC et l'intégration téléphonique classique. Chaque session de conversation tourne dans des microVMs isolées, avec une capacité de session continue allant jusqu'à 8 heures, et une mise à l'échelle automatique face aux pics de trafic. Le runtime impose l'usage de conteneurs ARM64 (Graviton), ce qui nécessite que les images Docker soient compilées spécifiquement pour l'architecture linux/arm64. Ce que change cette combinaison est significatif pour les équipes qui déploient des agents en production : elle élimine plusieurs problèmes récurrents liés aux architectures vocales temps réel, notamment la gigue audio, les contraintes de montée en charge, et les coûts liés au sur-provisionnement. La facturation à l'usage actif — et non à la capacité réservée — réduit directement les coûts d'infrastructure inactive. Sur le plan technique, la latence reste le défi central : une conversation naturelle exige une réponse inférieure à une seconde de bout en bout. Pour y parvenir, le système mise sur le streaming bidirectionnel à deux niveaux — entre le client et l'agent d'une part, et entre l'agent et les modèles de langage d'autre part. Le choix du modèle est déterminant : AWS recommande Amazon Nova Sonic pour les pipelines speech-to-speech, ou Nova Lite dans une approche en cascade (STT → LLM → TTS), tous deux optimisés pour minimiser le Time-to-First-Token. La plateforme intègre également de l'observabilité native pour tracer le raisonnement de l'agent et ses appels d'outils. Ce premier volet d'une série de publications s'adresse aux développeurs déjà familiers des architectures vocales en cascade et speech-to-speech. Il fait suite à un article précédent d'AWS comparant Amazon Nova Sonic aux approches en cascade, et pose les bases techniques pour les déploiements Pipecat sur AgentCore Runtime.

This post is a collaboration between AWS and Pipecat . Deploying intelligent voice agents that maintain natural, human-like conversations requires streaming to users where they are, across web, mobile, and phone channels, even under heavy traffic and unreliable network conditions. Even small delays can break the conversational flow, causing users to perceive the agent as unresponsive or unreliable. For use cases such as customer support, virtual assistants and outbound campaigns, a natural flow is critical for user experience. In this series of posts, you will learn how streaming architectures help address these challenges using Pipecat voice agents on Amazon Bedrock AgentCore Runtime . In Part 1, you will learn how to deploy Pipecat voice agents on AgentCore Runtime using different network transport approaches including WebSockets, WebRTC and telephony integration, with practical deployment guidance and code samples. Benefits of AgentCore Runtime for voice agents Deploying real-time voice agents is challenging: you need low-latency streaming, strict isolation for security, and the ability to scale dynamically to unpredictable conversation volume. Without an appropriately designed architecture, you can experience audio jitter, scalability constraints, inflated costs due to over-provisioning, and increased complexity. For a deeper dive into voice agent architectures, including cascaded (STT → LLM → TTS) and speech-to-speech approaches refer to our previous post, Building real-time voice assistants with Amazon Nova Sonic compared to cascading architectures. Amazon Bedrock AgentCore Runtime addresses these challenges by providing a secure, serverless environment for scaling dynamic AI agents. Each conversation session runs in isolated microVMs for security. It auto-scales for traffic spikes, and handles continuous sessions for up to 8 hours, making it ideal for long, multi-turn voice interactions. It charges only for resources actively used, helping to minimize costs associated with idle infrastructure. Pipecat, an agentic framework for building real-time voice AI pipelines, runs on AgentCore Runtime with minimal setup. Package your Pipecat voice pipeline as a container and deploy it directly to AgentCore Runtime. The runtime supports bidirectional streaming for real-time audio, and built-in observability to trace agent reasoning and tool calls. AgentCore Runtime requires ARM64 (Graviton) containers, so make sure your Docker images are built for the linux/arm64 system. Streaming architectures for voice agents on AgentCore Runtime This post assumes your familiarity of common voice agent architectures: specifically the cascaded models approach, where you connect speech-to-text (STT) and text-to-speech (TTS) models in a pipeline, and the speech-to-speech model approach, like Amazon Nova Sonic . If you are new to these concepts, start with our earlier blog posts on the two foundational approaches: cascaded and speech-to-speech before continuing. When building voice agents, latency is a critical consideration, determining how natural and reliable a voice conversation feels. Conversations require near-instant responses, typically under one second end-to-end, to maintain a fluid, human-like rhythm. To achieve low latency, you need to consider bi-directional streaming on multiple paths, including: Client to Agent: Your voice agents will run on devices and applications, from web browsers and mobile apps to edge hardware, each with unique network conditions. Agent to Model: Your voice agents rely on bidirectional streaming to interact with speech models. Most speech models expose real-time WebSocket APIs, which your agent runtime or orchestration framework can consume for audio input and text or speech output. Model selection plays a key role in achieving natural responsiveness. Select models like Amazon Nova Sonic (or Amazon Nova Lite in a cascaded pipeline approach) that are optimized for latency and provides a fast Time-to-First-Token (TTFT). Telephony: For traditional inbound or outbound calls handled through contact centers or telephony systems, your voice agent must also integrate with a telephony provider. This is typically achieved through a handoff and/or Session Interconnect Protocol (SIP) transfer, where the live audio stream is transferred from the telephony system to your agent runtime for processing. In Part 1 of this series, we will focus on the Client to Agent connection and how to minimize the first-hop network latency from your edge device to your voice agent and explore additional considerations in relation to other components of voice agent architecture. To illustrate these concepts, we will explore four network transport approaches with considerations for: How users interface with your voice agents (web/mobile applications or phone calls) Performance consistency and resilience across variable network conditions Ease of implementation Approach Description Performance consistency Ease of

À lire aussi

1Le Big Data1h

iOS 27 : Siri va devenir ChatGPT ? Voici ce que prévoit Apple

Apple prépare une refonte complète de Siri avec iOS 27, selon des informations révélées par Bloomberg. L'assistant vocal abandonnerait son interface minimaliste en bulle colorée pour devenir une véritable application autonome, disponible sur iPhone, iPad et Mac. Cette nouvelle version adopterait les codes des chatbots modernes : conversations écrites ou vocales, envoi de fichiers, historique des échanges consultable et continuité entre les sessions. Un bouton « Demander à Siri » ferait son apparition dans les applications tierces, tandis qu'une fonction « Écrire avec Siri » s'intégrerait directement au clavier système. La Dynamic Island servirait à afficher en temps réel l'avancement des traitements. Pour combler son retard technologique, Apple s'appuierait sur le modèle Gemini de Google, annoncé en partenariat dès janvier 2026, afin de renforcer les capacités conversationnelles de l'assistant. L'application dédiée pourrait toutefois ne pas être disponible dès le lancement d'iOS 27, son déploiement étant prévu dans une mise à jour ultérieure. Ce repositionnement marque un tournant stratégique majeur pour Apple, qui accuse depuis plusieurs années un retard flagrant face à ChatGPT, Gemini et Copilot. Le nouveau Siri ne se contenterait plus de répondre à des commandes isolées : il analyserait les données personnelles de l'utilisateur — messages, notes, emails — pour fournir des réponses contextualisées et automatiser des tâches quotidiennes complexes. Cette fusion entre données locales et recherche web représente un saut qualitatif important, transformant Siri d'un simple exécutant en assistant proactif. Pour les utilisateurs, cela signifie un assistant capable de comprendre une demande dans sa globalité, de s'en souvenir, et d'agir en tenant compte du contexte personnel — une expérience bien plus proche de celle proposée par les IA génératives concurrentes. Apple avait déjà tenté cette approche personnalisée en 2024, sans convaincre. La firme revient donc avec une version plus aboutie, dans un contexte où la guerre des assistants IA s'est considérablement intensifiée depuis le lancement de ChatGPT en 2022.

UELa refonte de Siri avec accès aux données personnelles (messages, emails, notes) sur des centaines de millions d'appareils européens soulève des enjeux RGPD significatifs pour les régulateurs de l'UE.

OutilsOpinion
1 source
2The Decoder1h

Google lance Lyria 3 Pro, un générateur de musique par IA entraîné sur des données licenciées

Google a lancé Lyria 3 Pro, un nouveau générateur de musique par intelligence artificielle capable de produire des morceaux allant jusqu'à trois minutes, avec des couplets, des refrains et des ponts — une durée bien supérieure aux outils similaires existants. La société affirme que le modèle a été entraîné exclusivement sur des données pour lesquelles elle dispose des droits nécessaires. Cette précision n'est pas anodine : elle distingue clairement Lyria 3 Pro de son principal concurrent, Suno, actuellement poursuivi en justice par plusieurs maisons de disques pour violation potentielle du droit d'auteur. En revendiquant une base d'entraînement légalement claire, Google se positionne comme un acteur responsable sur un marché où les litiges autour de la propriété intellectuelle freinent l'adoption de ces technologies. C'est aussi un argument commercial fort auprès des créateurs et des entreprises qui craignent d'exposer leurs projets à des risques juridiques. La génération musicale par IA est devenue l'un des terrains les plus disputés de l'industrie créative, où les tensions entre les grandes plateformes technologiques et les ayants droit du secteur musical s'intensifient depuis plusieurs mois.

UELes créateurs et entreprises européens exposés aux risques juridiques liés à la génération musicale par IA peuvent s'appuyer sur cette approche comme référence de conformité avec la directive européenne sur le droit d'auteur (DSM).

OutilsActu
1 source
3AWS ML Blog2h

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
4The Decoder3h

MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran

L'Allen Institute for AI (AI2) a publié MolmoWeb, un agent web open source capable de naviguer sur internet en utilisant uniquement des captures d'écran. Disponible en deux versions de 4 et 8 milliards de paramètres, cet agent surpasse plusieurs systèmes propriétaires bien plus grands sur les benchmarks standard. C'est une avancée notable car la plupart des agents web performants s'appuient sur des modèles fermés et massifs. MolmoWeb démontre qu'une approche entièrement ouverte, avec des modèles compacts, peut rivaliser avec des systèmes commerciaux — rendant cette technologie accessible à la recherche et aux développeurs sans dépendre de services propriétaires. AI2, connu pour ses travaux open source en IA, s'inscrit dans une tendance plus large où les modèles légers et transparents réduisent l'écart avec les géants du secteur.

UELes chercheurs et développeurs européens peuvent adopter MolmoWeb sans dépendre de services propriétaires américains, réduisant ainsi les coûts et les contraintes de souveraineté numérique.

OutilsActu
1 source