
Amazon Nova Sonic : évaluer un agent vocal à grande échelle, sans microphone
Amazon a publié le Nova Sonic Test Harness, un framework open source conçu pour automatiser les tests des agents vocaux construits sur son modèle Amazon Nova Sonic. Jusqu'ici, la seule méthode disponible pour les équipes de développement consistait à faire parler physiquement une personne à l'agent et à écouter les réponses, scénario par scénario. Avec 50 scénarios de conversation testés sur 3 personas utilisateurs distincts, cela représente 150 tests manuels, chacun prenant plusieurs minutes en temps réel. Multiplié par chaque modification de prompt ou de configuration d'outil, le coût en temps devient prohibitif. Le harness résout ce problème en simulant des conversations complètes multi-tours sans microphone, en évaluant les résultats via des techniques de jugement par LLM, et en détectant les cas d'hallucination audio, c'est-à-dire les situations où le texte généré et l'audio produit divergent, par exemple "15h00" à l'écrit contre "15h30" à l'oral.
L'enjeu est considérable pour les entreprises qui déploient des agents vocaux dans des flux critiques comme la prise de rendez-vous, la gestion de commandes ou le support client. Sans framework d'évaluation automatisé, l'optimisation des prompts devient un travail à l'aveugle : impossible de savoir si une modification améliore ou dégrade le comportement de l'agent sur l'ensemble des cas d'usage avant un déploiement en production. Le harness permet désormais de lancer une suite de régression complète avant chaque mise à jour, de mesurer si l'agent gère correctement les cas limites sur des centaines de scénarios, et de détecter des régressions subtiles, comme un agent qui cesserait de confirmer une réservation, avant qu'un vrai client ne les rencontre.
Les agents vocaux posent des défis techniques fondamentalement différents des chatbots textuels, ce qui explique pourquoi les outils d'évaluation existants ne s'adaptent pas directement. Les modèles speech-to-speech maintiennent une connexion full-duplex persistante avec flux audio et texte bidirectionnels simultanés, incompatible avec les outils HTTP classiques. Leurs réponses sont non-déterministes, le comportement pertinent se manifeste sur plusieurs tours de conversation, et les sessions expirent après environ huit minutes, nécessitant une gestion de la reconnexion et du replay d'historique. Amazon positionne Nova Sonic comme sa réponse aux besoins croissants des entreprises en matière d'interfaces vocales intelligentes, un marché en forte expansion où Google, Microsoft et des acteurs spécialisés comme ElevenLabs se disputent les contrats. La publication en open source du harness vise à abaisser la barrière d'adoption en offrant aux développeurs un outil de test professionnel dès le départ.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




