
Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session
Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils.
Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants.
Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.
Les équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



