Aller au contenu principal
Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
OutilsAWS ML Blog12sem· 1 min de lecture

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel

Source originale ↗·

Amazon vient de franchir une étape significative dans la synthèse vocale en temps réel avec le lancement d'une nouvelle API de streaming bidirectionnel pour son service Amazon Polly. Cette fonctionnalité, baptisée StartSpeechSynthesisStream, permet désormais d'envoyer du texte et de recevoir de l'audio simultanément, sans attendre que la totalité du texte soit disponible avant de démarrer la synthèse.

L'impact pour les développeurs d'applications conversationnelles est considérable. Les assistants vocaux et agents IA alimentés par des LLM souffraient jusqu'ici d'une latence structurelle : il fallait attendre la fin complète de la génération du texte avant de pouvoir lancer la synthèse, puis patienter encore pendant l'encodage audio. Ce goulot d'étranglement rendait les échanges artificiellement saccadés. La nouvelle API élimine ce délai en autorisant un flux continu dans les deux sens dès les premiers tokens générés.

Techniquement, la solution repose sur une communication duplex sur HTTP/2 avec quatre types d'événements distincts : TextEvent (envoi de texte vers Polly), CloseStreamEvent (signal de fin d'entrée), AudioEvent (réception des chunks audio) et StreamClosedEvent (confirmation de clôture). Les benchmarks internes d'Amazon ont été réalisés sur un texte de 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24kHz dans la région us-west-2, en simulant une génération de tokens à ~30 ms par mot — conditions représentatives d'un LLM réel.

Par rapport à l'approche traditionnelle, qui nécessitait une logique de découpage côté serveur, des appels parallèles multiples à l'API SynthesizeSpeech et un réassemblage complexe de l'audio, la nouvelle architecture réduit significativement la complexité d'infrastructure tout en abaissant la latence perçue. Une évolution qui positionne Amazon Polly comme un composant de choix pour les pipelines voix des agents conversationnels de nouvelle génération.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC
1AWS ML Blog 

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC

Amazon a mis en ligne une solution combinant son modèle vocal Nova Sonic et le service Kinesis Video Streams WebRTC pour construire des applications de streaming vocal en temps réel. Nova Sonic repose sur une architecture dite "speech-to-speech" : contrairement aux pipelines traditionnels qui enchaînent reconnaissance vocale, traitement du langage et synthèse vocale en modules séparés, le modèle unifie ces trois étapes en un seul bloc, ce qui réduit significativement la latence. Il propose plusieurs styles de voix, une forte conscience contextuelle et des interfaces d'outils permettant de le connecter à des agents externes. Côté protocole, WebRTC est retenu comme couche de transport : il établit des connexions pair-à-pair directes sans plugin supplémentaire, gère automatiquement le débit adaptatif (ABR), la correction d'erreur en avance (FEC) et les problèmes de jitter, et reste compatible avec Chrome, Firefox, Safari, Edge, Android et iOS. AWS fournit également des exemples open source pour accélérer le démarrage des projets. L'intérêt de cette combinaison est concret : dans des environnements à connectivité instable, WebRTC ajuste dynamiquement le bitrate pour éviter les coupures et maintenir la qualité audio, tandis que Nova Sonic prend en charge la conversation multilingue naturelle, permettant aux utilisateurs d'interagir dans leur propre langue sans friction. Les deux services étant entièrement gérés par AWS, ils se dimensionnent automatiquement, sans que les équipes techniques aient à gérer l'infrastructure sous-jacente. Cela abaisse la barrière d'entrée pour les startups qui ne peuvent pas se permettre des efforts de compatibilité cross-browser ou des architectures de scalabilité complexes. Les cas d'usage visés sont variés : véhicules connectés avec traduction en temps réel pour les conducteurs, usines intelligentes avec communication vocale interculturelle, robotique de service client multilingue, objets connectés domestiques contrôlables vocalement dans plusieurs langues. Cette publication s'inscrit dans une compétition intense autour des interfaces vocales IA temps réel, où OpenAI avec sa Voice API, Google avec Gemini Live et des acteurs comme ElevenLabs se disputent le marché des agents conversationnels. Amazon positionne Nova Sonic comme une réponse intégrée dans son écosystème AWS, en s'appuyant sur l'infrastructure Kinesis Video Streams déjà utilisée par de nombreuses entreprises pour la vidéosurveillance et l'IoT. L'architecture présentée supporte également des intégrations avec des sources de données via RAG (Retrieval Augmented Generation), le protocole MCP (Model Context Protocol) et Strands Agents, ce qui laisse entrevoir des déploiements hybrides mêlant voix, données métier en temps réel et orchestration d'agents autonomes. La mise à disposition d'exemples open source suggère qu'AWS cherche à constituer rapidement une communauté de développeurs autour de Nova Sonic avant que la concurrence ne consolide ses propres standards.

OutilsOutil
1 source
Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic
2AWS ML Blog 

Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic

Amazon et Stream ont annoncé une intégration combinant le framework open-source Vision Agents de Stream avec Amazon Nova 2 Sonic, un modèle de fondation voix-à-voix disponible via Amazon Bedrock. Cette solution permet de construire des agents vocaux en temps réel capables d'être déployés en production en quelques minutes. Nova 2 Sonic prend en charge l'intégralité du pipeline vocal, entrée audio, détection de tour de parole, appel de fonctions et sortie audio, sans recourir à des services séparés de reconnaissance ou de synthèse vocale. Vision Agents, côté Stream, est un framework Python open-source proposant plus de 25 intégrations, des SDK clients pour React, iOS, Android, Flutter et React Native, et une architecture modulaire basée sur des décorateurs. Le réseau edge mondial de Stream complète le dispositif, avec des temps de connexion inférieurs à 500 ms et une latence audio typique de moins de 30 ms. L'enjeu est considérable pour les équipes qui développent des applications vocales : une conversation naturelle exige que la totalité du pipeline, capture du micro, traitement, génération de réponse, restitution audio, s'exécute en quelques centaines de millisecondes. Jusqu'ici, les développeurs devaient consacrer l'essentiel de leur temps non pas à l'IA elle-même, mais à la gestion des connexions WebRTC, aux logiques de reconnexion automatique, à la compatibilité navigateur et à la dégradation gracieuse en cas d'indisponibilité d'un service. Cette charge infrastructure forçait les équipes soit à investir plusieurs mois dans des solutions maison, soit à se contenter de produits clés en main trop rigides. L'intégration Vision Agents + Nova 2 Sonic absorbe cette complexité et libère les développeurs pour se concentrer sur les cas d'usage : support client, automatisation de workflows, actions pilotées par API. La course à l'agent vocal de qualité production s'est intensifiée ces derniers mois, avec OpenAI, Google et Mistral qui proposent chacun des modèles natifs voix-à-voix. Amazon positionne Nova 2 Sonic comme une réponse enterprise via Bedrock, en s'appuyant sur l'écosystème AWS et le réseau de partenaires comme Stream pour accélérer l'adoption. Le support multilingue natif et les capacités de function calling de Nova 2 Sonic ouvrent la voie à des agents vocaux connectés à des systèmes tiers, CRM, bases de données, outils métier, sans couche d'intégration supplémentaire. La prochaine étape pour cet écosystème sera probablement l'extension vers des agents multimodaux combinant voix et vision, une direction que Vision Agents anticipe déjà avec son nom et son architecture.

UELes développeurs et entreprises européens utilisant AWS Bedrock peuvent désormais déployer des agents vocaux en production sans infrastructure supplémentaire grâce à cette intégration.

OutilsOutil
1 source
NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming
3MarkTechPost 

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

NVIDIA a lancé Nemotron 3.5 ASR, un modèle de reconnaissance vocale automatique en streaming capable de transcrire 40 variantes linguistiques en temps réel depuis un seul checkpoint de 600 millions de paramètres. Publié en open weights sur Hugging Face sous licence OpenMDW-1.1, le modèle repose sur une architecture Cache-Aware FastConformer-RNNT qui intègre nativement la ponctuation et les majuscules, sans étape de post-traitement supplémentaire. Il couvre des langues aussi variées que l'anglais, le français, l'espagnol, l'arabe, le japonais, le coréen, le mandarin, le hindi ou le thaï, avec un mode de détection automatique de la langue (targetlang=auto) permettant de traiter des flux audio multilingues sans composant externe. La latence est configurable à l'inférence via un paramètre unique (attcontext_size), offrant des modes allant de 80 ms ultra-basse latence jusqu'à 1,12 seconde pour une précision maximale, sans nécessiter de réentraînement. Ce modèle s'attaque directement à l'un des principaux obstacles au déploiement industriel de la transcription vocale en temps réel : la complexité opérationnelle. Jusqu'ici, couvrir plusieurs langues imposait de maintenir autant de modèles distincts, de gérer des pipelines de détection de langue séparés, et de choisir entre latence et précision via des checkpoints différents. Nemotron 3.5 ASR supprime ces trois frictions en un seul déploiement. Pour les équipes produit qui développent des outils de sous-titrage en direct, des assistants vocaux multilingues ou des plateformes de transcription à grande échelle, cela représente une réduction significative de l'infrastructure et du coût d'exploitation. Le fait qu'il soit disponible gratuitement en self-hosting change également la donne face aux services cloud payants comme Nova-3 de Deepgram (~0,0077 $/min) ou Scribe v2 Realtime d'ElevenLabs (~0,28 $/heure). NVIDIA opère depuis plusieurs années une montée en puissance dans le domaine des modèles de traitement du langage parlé, notamment via sa division Nemotron Speech. Ce lancement s'inscrit dans une compétition intense entre acteurs open source et solutions propriétaires : Whisper large-v3 d'OpenAI reste la référence en transcription batch (99 langues, MIT), mais n'est pas natif au streaming ; AssemblyAI (Universal-3 Pro) et Speechmatics se positionnent sur le streaming temps réel, mais avec des couvertures linguistiques plus étroites ou des API fermées. NVIDIA entre dans ce segment avec un modèle à la fois performant, polyglotte et librement hébergeable, ce qui pourrait accélérer son adoption dans les environnements souverains ou à contraintes de confidentialité forte. La prochaine étape probable sera l'intégration dans les pipelines NIM (NVIDIA Inference Microservices) pour simplifier encore le déploiement en production.

UELe modèle couvre explicitement le français parmi ses 40 variantes linguistiques, et son mode self-hosting gratuit facilite le déploiement dans des environnements européens soumis aux exigences de souveraineté des données, réduisant la dépendance aux API cloud américaines payantes.

💬 Un seul checkpoint pour 40 langues en streaming, ponctuation et majuscules intégrées nativement : c'est le genre de truc qu'on attendait depuis 2 ans. Couvrir plusieurs langues en temps réel imposait jusqu'ici de gérer autant de modèles distincts plus un détecteur de langue en amont, bref une usine à gaz. Et là, en self-hosting gratuit face à Deepgram à 0,0077 $ la minute, les équipes qui hésitaient vont vite trancher.

OutilsOpinion
1 source
Amazon Nova 2 Sonic : créer des podcasts conversationnels en temps réel
4AWS ML Blog 

Amazon Nova 2 Sonic : créer des podcasts conversationnels en temps réel

Amazon a lancé Nova Sonic 2, un modèle de compréhension et de génération vocale intégré à sa plateforme Bedrock, capable de produire des conversations audio naturelles en temps réel avec une latence très faible. Le modèle prend en charge sept langues dont le français, l'allemand, l'espagnol et l'hindi, et dispose d'une fenêtre de contexte pouvant atteindre un million de tokens. Nova Sonic 2 offre une API de streaming pour les conversations multi-tours, avec des capacités d'instruction complexe, d'appel d'outils externes et de bascule fluide entre voix et texte. Amazon illustre ses usages avec un générateur de podcasts automatisé : deux hôtes IA conversent en temps réel sur n'importe quel sujet, sans intervention humaine, depuis la recherche jusqu'à la diffusion audio finale. L'enjeu est direct pour les créateurs de contenu et les organisations médias. Produire un podcast traditionnel mobilise studio, matériel, talents vocaux, montage et coordination de planning, des contraintes qui limitent la cadence de publication et le volume de sujets couverts. Nova Sonic 2 supprime la plupart de ces frictions : pas de conflits d'agenda, pas d'irrégularités liées à la disponibilité humaine, et une personnalisation potentielle en temps réel selon le profil de l'auditeur. Pour les entreprises qui cherchent à déployer du contenu audio à grande échelle, formation interne, support client vocal, newsletters audio, le rapport coût-performance revendiqué par Amazon représente un changement structurel dans l'économie de la production audio. Le marché du podcast a connu une croissance explosive ces dernières années, porté par son avantage d'accessibilité unique : il se consomme en faisant autre chose, là où le contenu visuel exige l'attention totale. Plusieurs acteurs technologiques cherchent à capter cette dynamique avec de l'IA générative vocale. OpenAI avec ses voix dans ChatGPT, Google avec NotebookLM Audio Overviews, qui génère déjà des podcasts synthétiques à partir de documents, et ElevenLabs avec ses outils de clonage vocal se positionnent sur ce segment. Amazon entre dans la compétition avec l'avantage de l'intégration native à Bedrock, ses Guardrails de sécurité, ses Agents et ses bases de connaissances, ce qui facilite l'adoption en entreprise. La prochaine étape logique sera la personnalisation dynamique du contenu par auditeur, un terrain encore peu défriché mais que Nova Sonic 2, avec sa fenêtre de contexte d'un million de tokens, semble techniquement en mesure d'adresser.

UELe support natif du français et l'intégration à AWS Bedrock facilitent l'adoption par les médias et entreprises européennes souhaitant automatiser leur production audio.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic