OutilsAWS ML Blog · 8 juin 2026, 18:57· 2 min de lecture

Amazon Nova Sonic : évaluer un agent vocal à grande échelle, sans microphone

Amazon a publié le Nova Sonic Test Harness, un framework open source conçu pour automatiser les tests des agents vocaux construits sur son modèle Amazon Nova Sonic. Jusqu'ici, la seule méthode disponible pour les équipes de développement consistait à faire parler physiquement une personne à l'agent et à écouter les réponses, scénario par scénario. Avec 50 scénarios de conversation testés sur 3 personas utilisateurs distincts, cela représente 150 tests manuels, chacun prenant plusieurs minutes en temps réel. Multiplié par chaque modification de prompt ou de configuration d'outil, le coût en temps devient prohibitif. Le harness résout ce problème en simulant des conversations complètes multi-tours sans microphone, en évaluant les résultats via des techniques de jugement par LLM, et en détectant les cas d'hallucination audio, c'est-à-dire les situations où le texte généré et l'audio produit divergent, par exemple "15h00" à l'écrit contre "15h30" à l'oral.

L'enjeu est considérable pour les entreprises qui déploient des agents vocaux dans des flux critiques comme la prise de rendez-vous, la gestion de commandes ou le support client. Sans framework d'évaluation automatisé, l'optimisation des prompts devient un travail à l'aveugle : impossible de savoir si une modification améliore ou dégrade le comportement de l'agent sur l'ensemble des cas d'usage avant un déploiement en production. Le harness permet désormais de lancer une suite de régression complète avant chaque mise à jour, de mesurer si l'agent gère correctement les cas limites sur des centaines de scénarios, et de détecter des régressions subtiles, comme un agent qui cesserait de confirmer une réservation, avant qu'un vrai client ne les rencontre.

Les agents vocaux posent des défis techniques fondamentalement différents des chatbots textuels, ce qui explique pourquoi les outils d'évaluation existants ne s'adaptent pas directement. Les modèles speech-to-speech maintiennent une connexion full-duplex persistante avec flux audio et texte bidirectionnels simultanés, incompatible avec les outils HTTP classiques. Leurs réponses sont non-déterministes, le comportement pertinent se manifeste sur plusieurs tours de conversation, et les sessions expirent après environ huit minutes, nécessitant une gestion de la reconnexion et du replay d'historique. Amazon positionne Nova Sonic comme sa réponse aux besoins croissants des entreprises en matière d'interfaces vocales intelligentes, un marché en forte expansion où Google, Microsoft et des acteurs spécialisés comme ElevenLabs se disputent les contrats. La publication en open source du harness vise à abaisser la barrière d'adoption en offrant aux développeurs un outil de test professionnel dès le départ.

Dans nos dossiers

Open weight & Open source Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Migrer un agent texte vers un assistant vocal avec Amazon Nova 2 Sonic

Amazon a publié un guide technique détaillé sur la migration d'agents textuels vers des assistants vocaux en utilisant Amazon Nova 2 Sonic, son modèle de traitement de la parole en temps réel. L'article, publié en avril 2026, s'adresse aux équipes d'ingénierie qui ont déjà déployé des agents conversationnels textuels et souhaitent les adapter à des interfaces vocales. Les secteurs visés sont larges : finance, santé, éducation, réseaux sociaux et commerce de détail, tous confrontés à une demande croissante d'interactions orales naturelles et instantanées. Amazon propose même un outil intégré dans des IDE comme Kiro et Claude Code, capable de convertir automatiquement un agent textuel en agent vocal à partir d'un référentiel de code existant. La différence entre un agent texte et un agent vocal est bien plus profonde qu'il n'y paraît, et c'est là l'enjeu central du guide. Un agent textuel peut retourner des tableaux, des listes à puces et des liens cliquables, le tout en une seule réponse que l'utilisateur lit à son rythme. Un agent vocal doit fonctionner différemment : les réponses doivent être courtes, séquentielles, avec des confirmations intermédiaires. Exemple concret : là où l'agent textuel d'une banque affiche un récapitulatif complet de trois comptes en une fois, l'agent vocal annonce un compte, demande si l'utilisateur veut continuer, puis présente le suivant. La latence devient également un critère critique : quelques secondes d'attente sont tolérables à l'écrit, mais créent une impression de coupure à l'oral, où chaque appel d'outil ajoute un silence perceptible. Cela oblige à repenser l'architecture en profondeur : streaming audio bidirectionnel permanent, détection d'activité vocale, gestion des interruptions en cours de phrase, et traitement asynchrone des outils pour ne pas bloquer le flux. Cette publication intervient alors que les grandes plateformes cloud cherchent à démocratiser la voix comme interface standard pour les applications d'entreprise. Amazon Nova 2 Sonic s'inscrit dans une compétition directe avec des modèles comme GPT-4o Audio d'OpenAI et Gemini Live de Google, tous capables de traitement vocal en temps réel avec de faibles temps de latence. La migration vers la voix soulève des enjeux techniques considérables, notamment la gestion des tours de parole fluides, la réduction des délais lors des appels à des API externes, et l'adaptation des prompts système pour un style oral plutôt qu'écrit. Le fait qu'Amazon intègre un outil de conversion automatique dans les IDE suggère que l'entreprise veut abaisser le seuil d'entrée pour accélérer l'adoption, tout en conservant une dépendance à son écosystème cloud pour l'inférence et le déploiement.

OutilsOutil

1 source

2AWS ML Blog

Créer un agent de prise de rendez-vous médicaux avec Amazon Nova 2 Sonic

Amazon Web Services publie une architecture complète pour déployer un agent vocal capable de gérer automatiquement les rappels de rendez-vous médicaux, en combinant Amazon Nova 2 Sonic et Amazon Bedrock AgentCore. Le taux d'absences non justifiées dans les établissements de santé américains oscille entre 5 et 30 % selon les spécialités, chaque créneau vide représentant une perte de revenus, du temps médical gaspillé et des soins retardés. L'agent décrit authentifie les patients par reconnaissance vocale, gère les rendez-vous en temps réel, confirmation, annulation, reprogrammation, collecte des informations de santé pré-consultation et transfère l'appel à un agent humain si la situation l'exige. Le système repose sur Bedrock AgentCore en mode serverless, Amazon Cognito pour l'authentification, DynamoDB pour la persistance des données, Amazon SNS pour les notifications, et un frontend React qui streame l'audio bidirectionnel via des connexions WebSocket authentifiées. La différence fondamentale avec les approches traditionnelles tient au traitement natif parole-à-parole de Nova 2 Sonic. Les pipelines classiques enchaînent trois services distincts, transcription automatique, modèle de langage, synthèse vocale, et perdent à chaque transfert les nuances acoustiques du patient : hésitations, ton anxieux, confusion. Nova 2 Sonic traite la voix dans un seul modèle unifié, préservant le contexte vocal à travers chaque tour de dialogue. En santé, où l'état émotionnel d'un patient devrait influencer directement la réponse de l'agent, cette rétention de contexte améliore concrètement la qualité des échanges. Le modèle gère en outre les bruits de fond courants en environnement domestique et clinique, les accents régionaux, et peut basculer en cours de conversation vers la langue préférée du patient sans aucune reconfiguration. Amazon positionne Nova 2 Sonic comme une réponse directe aux limites des pipelines textuels dans les interactions vocales à fort enjeu. L'architecture s'appuie sur le SDK Strands Agents, qui intègre sept outils spécifiques au secteur médical pour l'authentification, la gestion des plannings et l'escalade vers le personnel soignant. Pour connecter l'agent à de vraies lignes téléphoniques en mode sortant, AWS recommande d'intégrer Amazon Connect, non inclus dans cette démonstration qui se concentre sur la couche agentique. Dans un secteur où les appels de confirmation un par un ne passent plus à l'échelle, cette architecture cible directement les réseaux de cliniques et d'hôpitaux qui absorbent chaque année des millions d'interactions téléphoniques routinières, et cherchent à les automatiser sans sacrifier la dimension humaine de la relation patient.

OutilsOutil

1 source

3AWS ML Blog

Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session

Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils. Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants. Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.

UELes équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.

OutilsOutil

1 source

4AWS ML Blog

Loka a construit un agent vocal naturel et faible latence avec Amazon Nova 2 Sonic

La société Loka a déployé un agent vocal conversationnel basé sur Amazon Nova 2 Sonic, le modèle audio natif d'AWS, pour transformer les interactions téléphoniques de ses clients dans le secteur automobile. Les résultats mesurés sur le benchmark Big Bench Audio, qui évalue le raisonnement sur des entrées vocales, placent Nova 2 Sonic à 87,0 points, devant GPT Realtime d'OpenAI (83,0) et loin devant Gemini 2.5 Flash Native Audio de Google (71,0). Sur le plan de la latence, le modèle atteint un temps de première réponse audio de 1,39 seconde, ce qui permet des interruptions naturelles de la conversation. Le coût d'utilisation est estimé à environ 0,27 dollar par heure d'audio traité, inférieur aux solutions concurrentes comparables. Ce résultat s'attaque à un problème bien documenté dans les centres d'appels : les assistants vocaux traditionnels imposent une chaîne en trois étapes, transcription audio vers texte, traitement par un LLM, puis synthèse vocale, qui génère des pauses de 3 à 5 secondes entre la question du client et la réponse du système. Ce délai brise le rythme naturel d'une conversation, rend difficile toute interruption ou correction, et dans un contexte de vente automobile, peut suffire à faire raccrocher le client. Nova 2 Sonic court-circuite cette pipeline en traitant l'audio de bout en bout, capturant au passage la tonalité, l'hésitation et les nuances émotionnelles que la transcription textuelle efface systématiquement. Pour Loka, qui opère pour de nombreuses concessions, le gain combiné sur la fluidité et les coûts rend l'adoption à grande échelle viable là où elle ne l'était pas auparavant. L'émergence des modèles "speech-to-speech" natifs représente un tournant dans l'IA vocale, domaine longtemps freiné par la médiocrité de l'expérience utilisateur autant que par des coûts prohibitifs à l'échelle. Amazon positionne Nova 2 Sonic dans une compétition directe avec les offres temps réel d'OpenAI et Google, tous trois ayant publié des interfaces audio natives depuis fin 2024. Le benchmark Big Bench Audio, conçu pour mesurer le raisonnement sur la parole plutôt que la simple reconnaissance, s'impose comme l'outil de référence pour différencier ces modèles au-delà des seules métriques de latence. Pour les entreprises gérant des volumes élevés d'appels entrants, comme les réseaux de distribution ou les services clients, la convergence de réponses sous 1,5 seconde, d'un raisonnement multimodal robuste et d'un coût maîtrisé ouvre une fenêtre d'adoption qui n'existait pas il y a douze mois.

UELes réseaux de distribution automobile et centres d'appels européens sont directement concernés par la viabilité économique de ces agents vocaux speech-to-speech natifs, dont la latence sous 1,5 seconde et le coût maîtrisé atteignent enfin un seuil d'adoption à grande échelle.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic