
Loka a construit un agent vocal naturel et faible latence avec Amazon Nova 2 Sonic
La société Loka a déployé un agent vocal conversationnel basé sur Amazon Nova 2 Sonic, le modèle audio natif d'AWS, pour transformer les interactions téléphoniques de ses clients dans le secteur automobile. Les résultats mesurés sur le benchmark Big Bench Audio, qui évalue le raisonnement sur des entrées vocales, placent Nova 2 Sonic à 87,0 points, devant GPT Realtime d'OpenAI (83,0) et loin devant Gemini 2.5 Flash Native Audio de Google (71,0). Sur le plan de la latence, le modèle atteint un temps de première réponse audio de 1,39 seconde, ce qui permet des interruptions naturelles de la conversation. Le coût d'utilisation est estimé à environ 0,27 dollar par heure d'audio traité, inférieur aux solutions concurrentes comparables.
Ce résultat s'attaque à un problème bien documenté dans les centres d'appels : les assistants vocaux traditionnels imposent une chaîne en trois étapes, transcription audio vers texte, traitement par un LLM, puis synthèse vocale, qui génère des pauses de 3 à 5 secondes entre la question du client et la réponse du système. Ce délai brise le rythme naturel d'une conversation, rend difficile toute interruption ou correction, et dans un contexte de vente automobile, peut suffire à faire raccrocher le client. Nova 2 Sonic court-circuite cette pipeline en traitant l'audio de bout en bout, capturant au passage la tonalité, l'hésitation et les nuances émotionnelles que la transcription textuelle efface systématiquement. Pour Loka, qui opère pour de nombreuses concessions, le gain combiné sur la fluidité et les coûts rend l'adoption à grande échelle viable là où elle ne l'était pas auparavant.
L'émergence des modèles "speech-to-speech" natifs représente un tournant dans l'IA vocale, domaine longtemps freiné par la médiocrité de l'expérience utilisateur autant que par des coûts prohibitifs à l'échelle. Amazon positionne Nova 2 Sonic dans une compétition directe avec les offres temps réel d'OpenAI et Google, tous trois ayant publié des interfaces audio natives depuis fin 2024. Le benchmark Big Bench Audio, conçu pour mesurer le raisonnement sur la parole plutôt que la simple reconnaissance, s'impose comme l'outil de référence pour différencier ces modèles au-delà des seules métriques de latence. Pour les entreprises gérant des volumes élevés d'appels entrants, comme les réseaux de distribution ou les services clients, la convergence de réponses sous 1,5 seconde, d'un raisonnement multimodal robuste et d'un coût maîtrisé ouvre une fenêtre d'adoption qui n'existait pas il y a douze mois.
Les réseaux de distribution automobile et centres d'appels européens sont directement concernés par la viabilité économique de ces agents vocaux speech-to-speech natifs, dont la latence sous 1,5 seconde et le coût maîtrisé atteignent enfin un seuil d'adoption à grande échelle.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



