OutilsAWS ML Blog4h· 2 min de lecture

Loka a construit un agent vocal naturel et faible latence avec Amazon Nova 2 Sonic

La société Loka a déployé un agent vocal conversationnel basé sur Amazon Nova 2 Sonic, le modèle audio natif d'AWS, pour transformer les interactions téléphoniques de ses clients dans le secteur automobile. Les résultats mesurés sur le benchmark Big Bench Audio, qui évalue le raisonnement sur des entrées vocales, placent Nova 2 Sonic à 87,0 points, devant GPT Realtime d'OpenAI (83,0) et loin devant Gemini 2.5 Flash Native Audio de Google (71,0). Sur le plan de la latence, le modèle atteint un temps de première réponse audio de 1,39 seconde, ce qui permet des interruptions naturelles de la conversation. Le coût d'utilisation est estimé à environ 0,27 dollar par heure d'audio traité, inférieur aux solutions concurrentes comparables.

Ce résultat s'attaque à un problème bien documenté dans les centres d'appels : les assistants vocaux traditionnels imposent une chaîne en trois étapes, transcription audio vers texte, traitement par un LLM, puis synthèse vocale, qui génère des pauses de 3 à 5 secondes entre la question du client et la réponse du système. Ce délai brise le rythme naturel d'une conversation, rend difficile toute interruption ou correction, et dans un contexte de vente automobile, peut suffire à faire raccrocher le client. Nova 2 Sonic court-circuite cette pipeline en traitant l'audio de bout en bout, capturant au passage la tonalité, l'hésitation et les nuances émotionnelles que la transcription textuelle efface systématiquement. Pour Loka, qui opère pour de nombreuses concessions, le gain combiné sur la fluidité et les coûts rend l'adoption à grande échelle viable là où elle ne l'était pas auparavant.

L'émergence des modèles "speech-to-speech" natifs représente un tournant dans l'IA vocale, domaine longtemps freiné par la médiocrité de l'expérience utilisateur autant que par des coûts prohibitifs à l'échelle. Amazon positionne Nova 2 Sonic dans une compétition directe avec les offres temps réel d'OpenAI et Google, tous trois ayant publié des interfaces audio natives depuis fin 2024. Le benchmark Big Bench Audio, conçu pour mesurer le raisonnement sur la parole plutôt que la simple reconnaissance, s'impose comme l'outil de référence pour différencier ces modèles au-delà des seules métriques de latence. Pour les entreprises gérant des volumes élevés d'appels entrants, comme les réseaux de distribution ou les services clients, la convergence de réponses sous 1,5 seconde, d'un raisonnement multimodal robuste et d'un coût maîtrisé ouvre une fenêtre d'adoption qui n'existait pas il y a douze mois.

Impact France/UE

Les réseaux de distribution automobile et centres d'appels européens sont directement concernés par la viabilité économique de ces agents vocaux speech-to-speech natifs, dont la latence sous 1,5 seconde et le coût maîtrisé atteignent enfin un seuil d'adoption à grande échelle.

Dans nos dossiers

AWS OpenAI Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Migrer un agent texte vers un assistant vocal avec Amazon Nova 2 Sonic

Amazon a publié un guide technique détaillé sur la migration d'agents textuels vers des assistants vocaux en utilisant Amazon Nova 2 Sonic, son modèle de traitement de la parole en temps réel. L'article, publié en avril 2026, s'adresse aux équipes d'ingénierie qui ont déjà déployé des agents conversationnels textuels et souhaitent les adapter à des interfaces vocales. Les secteurs visés sont larges : finance, santé, éducation, réseaux sociaux et commerce de détail, tous confrontés à une demande croissante d'interactions orales naturelles et instantanées. Amazon propose même un outil intégré dans des IDE comme Kiro et Claude Code, capable de convertir automatiquement un agent textuel en agent vocal à partir d'un référentiel de code existant. La différence entre un agent texte et un agent vocal est bien plus profonde qu'il n'y paraît, et c'est là l'enjeu central du guide. Un agent textuel peut retourner des tableaux, des listes à puces et des liens cliquables, le tout en une seule réponse que l'utilisateur lit à son rythme. Un agent vocal doit fonctionner différemment : les réponses doivent être courtes, séquentielles, avec des confirmations intermédiaires. Exemple concret : là où l'agent textuel d'une banque affiche un récapitulatif complet de trois comptes en une fois, l'agent vocal annonce un compte, demande si l'utilisateur veut continuer, puis présente le suivant. La latence devient également un critère critique : quelques secondes d'attente sont tolérables à l'écrit, mais créent une impression de coupure à l'oral, où chaque appel d'outil ajoute un silence perceptible. Cela oblige à repenser l'architecture en profondeur : streaming audio bidirectionnel permanent, détection d'activité vocale, gestion des interruptions en cours de phrase, et traitement asynchrone des outils pour ne pas bloquer le flux. Cette publication intervient alors que les grandes plateformes cloud cherchent à démocratiser la voix comme interface standard pour les applications d'entreprise. Amazon Nova 2 Sonic s'inscrit dans une compétition directe avec des modèles comme GPT-4o Audio d'OpenAI et Gemini Live de Google, tous capables de traitement vocal en temps réel avec de faibles temps de latence. La migration vers la voix soulève des enjeux techniques considérables, notamment la gestion des tours de parole fluides, la réduction des délais lors des appels à des API externes, et l'adaptation des prompts système pour un style oral plutôt qu'écrit. Le fait qu'Amazon intègre un outil de conversion automatique dans les IDE suggère que l'entreprise veut abaisser le seuil d'entrée pour accélérer l'adoption, tout en conservant une dépendance à son écosystème cloud pour l'inférence et le déploiement.

OutilsOutil

1 source

2AWS ML Blog

Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic

Amazon et Stream ont annoncé une intégration combinant le framework open-source Vision Agents de Stream avec Amazon Nova 2 Sonic, un modèle de fondation voix-à-voix disponible via Amazon Bedrock. Cette solution permet de construire des agents vocaux en temps réel capables d'être déployés en production en quelques minutes. Nova 2 Sonic prend en charge l'intégralité du pipeline vocal, entrée audio, détection de tour de parole, appel de fonctions et sortie audio, sans recourir à des services séparés de reconnaissance ou de synthèse vocale. Vision Agents, côté Stream, est un framework Python open-source proposant plus de 25 intégrations, des SDK clients pour React, iOS, Android, Flutter et React Native, et une architecture modulaire basée sur des décorateurs. Le réseau edge mondial de Stream complète le dispositif, avec des temps de connexion inférieurs à 500 ms et une latence audio typique de moins de 30 ms. L'enjeu est considérable pour les équipes qui développent des applications vocales : une conversation naturelle exige que la totalité du pipeline, capture du micro, traitement, génération de réponse, restitution audio, s'exécute en quelques centaines de millisecondes. Jusqu'ici, les développeurs devaient consacrer l'essentiel de leur temps non pas à l'IA elle-même, mais à la gestion des connexions WebRTC, aux logiques de reconnexion automatique, à la compatibilité navigateur et à la dégradation gracieuse en cas d'indisponibilité d'un service. Cette charge infrastructure forçait les équipes soit à investir plusieurs mois dans des solutions maison, soit à se contenter de produits clés en main trop rigides. L'intégration Vision Agents + Nova 2 Sonic absorbe cette complexité et libère les développeurs pour se concentrer sur les cas d'usage : support client, automatisation de workflows, actions pilotées par API. La course à l'agent vocal de qualité production s'est intensifiée ces derniers mois, avec OpenAI, Google et Mistral qui proposent chacun des modèles natifs voix-à-voix. Amazon positionne Nova 2 Sonic comme une réponse enterprise via Bedrock, en s'appuyant sur l'écosystème AWS et le réseau de partenaires comme Stream pour accélérer l'adoption. Le support multilingue natif et les capacités de function calling de Nova 2 Sonic ouvrent la voie à des agents vocaux connectés à des systèmes tiers, CRM, bases de données, outils métier, sans couche d'intégration supplémentaire. La prochaine étape pour cet écosystème sera probablement l'extension vers des agents multimodaux combinant voix et vision, une direction que Vision Agents anticipe déjà avec son nom et son architecture.

UELes développeurs et entreprises européens utilisant AWS Bedrock peuvent désormais déployer des agents vocaux en production sans infrastructure supplémentaire grâce à cette intégration.

OutilsOutil

1 source

3AWS ML Blog

Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session

Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils. Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants. Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.

UELes équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.

OutilsOutil

1 source

4AWS ML Blog

Créer un agent de prise de rendez-vous médicaux avec Amazon Nova 2 Sonic

Amazon Web Services publie une architecture complète pour déployer un agent vocal capable de gérer automatiquement les rappels de rendez-vous médicaux, en combinant Amazon Nova 2 Sonic et Amazon Bedrock AgentCore. Le taux d'absences non justifiées dans les établissements de santé américains oscille entre 5 et 30 % selon les spécialités, chaque créneau vide représentant une perte de revenus, du temps médical gaspillé et des soins retardés. L'agent décrit authentifie les patients par reconnaissance vocale, gère les rendez-vous en temps réel, confirmation, annulation, reprogrammation, collecte des informations de santé pré-consultation et transfère l'appel à un agent humain si la situation l'exige. Le système repose sur Bedrock AgentCore en mode serverless, Amazon Cognito pour l'authentification, DynamoDB pour la persistance des données, Amazon SNS pour les notifications, et un frontend React qui streame l'audio bidirectionnel via des connexions WebSocket authentifiées. La différence fondamentale avec les approches traditionnelles tient au traitement natif parole-à-parole de Nova 2 Sonic. Les pipelines classiques enchaînent trois services distincts, transcription automatique, modèle de langage, synthèse vocale, et perdent à chaque transfert les nuances acoustiques du patient : hésitations, ton anxieux, confusion. Nova 2 Sonic traite la voix dans un seul modèle unifié, préservant le contexte vocal à travers chaque tour de dialogue. En santé, où l'état émotionnel d'un patient devrait influencer directement la réponse de l'agent, cette rétention de contexte améliore concrètement la qualité des échanges. Le modèle gère en outre les bruits de fond courants en environnement domestique et clinique, les accents régionaux, et peut basculer en cours de conversation vers la langue préférée du patient sans aucune reconfiguration. Amazon positionne Nova 2 Sonic comme une réponse directe aux limites des pipelines textuels dans les interactions vocales à fort enjeu. L'architecture s'appuie sur le SDK Strands Agents, qui intègre sept outils spécifiques au secteur médical pour l'authentification, la gestion des plannings et l'escalade vers le personnel soignant. Pour connecter l'agent à de vraies lignes téléphoniques en mode sortant, AWS recommande d'intégrer Amazon Connect, non inclus dans cette démonstration qui se concentre sur la couche agentique. Dans un secteur où les appels de confirmation un par un ne passent plus à l'échelle, cette architecture cible directement les réseaux de cliniques et d'hôpitaux qui absorbent chaque année des millions d'interactions téléphoniques routinières, et cherchent à les automatiser sans sacrifier la dimension humaine de la relation patient.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic