
Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC
Amazon a mis en ligne une solution combinant son modèle vocal Nova Sonic et le service Kinesis Video Streams WebRTC pour construire des applications de streaming vocal en temps réel. Nova Sonic repose sur une architecture dite "speech-to-speech" : contrairement aux pipelines traditionnels qui enchaînent reconnaissance vocale, traitement du langage et synthèse vocale en modules séparés, le modèle unifie ces trois étapes en un seul bloc, ce qui réduit significativement la latence. Il propose plusieurs styles de voix, une forte conscience contextuelle et des interfaces d'outils permettant de le connecter à des agents externes. Côté protocole, WebRTC est retenu comme couche de transport : il établit des connexions pair-à-pair directes sans plugin supplémentaire, gère automatiquement le débit adaptatif (ABR), la correction d'erreur en avance (FEC) et les problèmes de jitter, et reste compatible avec Chrome, Firefox, Safari, Edge, Android et iOS. AWS fournit également des exemples open source pour accélérer le démarrage des projets.
L'intérêt de cette combinaison est concret : dans des environnements à connectivité instable, WebRTC ajuste dynamiquement le bitrate pour éviter les coupures et maintenir la qualité audio, tandis que Nova Sonic prend en charge la conversation multilingue naturelle, permettant aux utilisateurs d'interagir dans leur propre langue sans friction. Les deux services étant entièrement gérés par AWS, ils se dimensionnent automatiquement, sans que les équipes techniques aient à gérer l'infrastructure sous-jacente. Cela abaisse la barrière d'entrée pour les startups qui ne peuvent pas se permettre des efforts de compatibilité cross-browser ou des architectures de scalabilité complexes. Les cas d'usage visés sont variés : véhicules connectés avec traduction en temps réel pour les conducteurs, usines intelligentes avec communication vocale interculturelle, robotique de service client multilingue, objets connectés domestiques contrôlables vocalement dans plusieurs langues.
Cette publication s'inscrit dans une compétition intense autour des interfaces vocales IA temps réel, où OpenAI avec sa Voice API, Google avec Gemini Live et des acteurs comme ElevenLabs se disputent le marché des agents conversationnels. Amazon positionne Nova Sonic comme une réponse intégrée dans son écosystème AWS, en s'appuyant sur l'infrastructure Kinesis Video Streams déjà utilisée par de nombreuses entreprises pour la vidéosurveillance et l'IoT. L'architecture présentée supporte également des intégrations avec des sources de données via RAG (Retrieval Augmented Generation), le protocole MCP (Model Context Protocol) et Strands Agents, ce qui laisse entrevoir des déploiements hybrides mêlant voix, données métier en temps réel et orchestration d'agents autonomes. La mise à disposition d'exemples open source suggère qu'AWS cherche à constituer rapidement une communauté de développeurs autour de Nova Sonic avant que la concurrence ne consolide ses propres standards.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



