
Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
Amazon vient de franchir une étape significative dans la synthèse vocale en temps réel avec le lancement d'une nouvelle API de streaming bidirectionnel pour son service Amazon Polly. Cette fonctionnalité, baptisée StartSpeechSynthesisStream, permet désormais d'envoyer du texte et de recevoir de l'audio simultanément, sans attendre que la totalité du texte soit disponible avant de démarrer la synthèse.
L'impact pour les développeurs d'applications conversationnelles est considérable. Les assistants vocaux et agents IA alimentés par des LLM souffraient jusqu'ici d'une latence structurelle : il fallait attendre la fin complète de la génération du texte avant de pouvoir lancer la synthèse, puis patienter encore pendant l'encodage audio. Ce goulot d'étranglement rendait les échanges artificiellement saccadés. La nouvelle API élimine ce délai en autorisant un flux continu dans les deux sens dès les premiers tokens générés.
Techniquement, la solution repose sur une communication duplex sur HTTP/2 avec quatre types d'événements distincts : TextEvent (envoi de texte vers Polly), CloseStreamEvent (signal de fin d'entrée), AudioEvent (réception des chunks audio) et StreamClosedEvent (confirmation de clôture). Les benchmarks internes d'Amazon ont été réalisés sur un texte de 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24kHz dans la région us-west-2, en simulant une génération de tokens à ~30 ms par mot — conditions représentatives d'un LLM réel.
Par rapport à l'approche traditionnelle, qui nécessitait une logique de découpage côté serveur, des appels parallèles multiples à l'API SynthesizeSpeech et un réassemblage complexe de l'audio, la nouvelle architecture réduit significativement la complexité d'infrastructure tout en abaissant la latence perçue. Une évolution qui positionne Amazon Polly comme un composant de choix pour les pipelines voix des agents conversationnels de nouvelle génération.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


