Aller au contenu principal
Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM
OutilsAWS ML Blog6sem· 2 min de lecture

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Source originale ↗·

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire.

L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée.

Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

Impact France/UE

Mistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC
1AWS ML Blog 

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC

Amazon a mis en ligne une solution combinant son modèle vocal Nova Sonic et le service Kinesis Video Streams WebRTC pour construire des applications de streaming vocal en temps réel. Nova Sonic repose sur une architecture dite "speech-to-speech" : contrairement aux pipelines traditionnels qui enchaînent reconnaissance vocale, traitement du langage et synthèse vocale en modules séparés, le modèle unifie ces trois étapes en un seul bloc, ce qui réduit significativement la latence. Il propose plusieurs styles de voix, une forte conscience contextuelle et des interfaces d'outils permettant de le connecter à des agents externes. Côté protocole, WebRTC est retenu comme couche de transport : il établit des connexions pair-à-pair directes sans plugin supplémentaire, gère automatiquement le débit adaptatif (ABR), la correction d'erreur en avance (FEC) et les problèmes de jitter, et reste compatible avec Chrome, Firefox, Safari, Edge, Android et iOS. AWS fournit également des exemples open source pour accélérer le démarrage des projets. L'intérêt de cette combinaison est concret : dans des environnements à connectivité instable, WebRTC ajuste dynamiquement le bitrate pour éviter les coupures et maintenir la qualité audio, tandis que Nova Sonic prend en charge la conversation multilingue naturelle, permettant aux utilisateurs d'interagir dans leur propre langue sans friction. Les deux services étant entièrement gérés par AWS, ils se dimensionnent automatiquement, sans que les équipes techniques aient à gérer l'infrastructure sous-jacente. Cela abaisse la barrière d'entrée pour les startups qui ne peuvent pas se permettre des efforts de compatibilité cross-browser ou des architectures de scalabilité complexes. Les cas d'usage visés sont variés : véhicules connectés avec traduction en temps réel pour les conducteurs, usines intelligentes avec communication vocale interculturelle, robotique de service client multilingue, objets connectés domestiques contrôlables vocalement dans plusieurs langues. Cette publication s'inscrit dans une compétition intense autour des interfaces vocales IA temps réel, où OpenAI avec sa Voice API, Google avec Gemini Live et des acteurs comme ElevenLabs se disputent le marché des agents conversationnels. Amazon positionne Nova Sonic comme une réponse intégrée dans son écosystème AWS, en s'appuyant sur l'infrastructure Kinesis Video Streams déjà utilisée par de nombreuses entreprises pour la vidéosurveillance et l'IoT. L'architecture présentée supporte également des intégrations avec des sources de données via RAG (Retrieval Augmented Generation), le protocole MCP (Model Context Protocol) et Strands Agents, ce qui laisse entrevoir des déploiements hybrides mêlant voix, données métier en temps réel et orchestration d'agents autonomes. La mise à disposition d'exemples open source suggère qu'AWS cherche à constituer rapidement une communauté de développeurs autour de Nova Sonic avant que la concurrence ne consolide ses propres standards.

OutilsOutil
1 source
Créer un portail personnalisé avec les applications MLflow d'Amazon SageMaker AI intégrées
2AWS ML Blog 

Créer un portail personnalisé avec les applications MLflow d'Amazon SageMaker AI intégrées

Amazon Web Services propose une approche architecturale permettant aux équipes de machine learning d'intégrer Amazon SageMaker AI MLflow Apps directement dans un portail interne sur mesure, sans distribuer d'URLs présignées ni accorder d'accès individuels à la console AWS. La solution repose sur quatre composants déployés via AWS Cloud Development Kit (CDK) : un Application Load Balancer (ALB) comme point d'entrée unique, une application React embarquant l'interface MLflow dans un iframe, un reverse proxy Flask tournant sur Amazon EC2, et le service managé SageMaker AI MLflow Apps en backend. L'authentification AWS Signature Version 4 (SigV4) est gérée de façon transparente par le proxy Flask, qui intercepte chaque requête, la signe avec des identifiants temporaires obtenus via un rôle IAM dédié, puis la transmet à l'endpoint MLflow. Le résultat est une URL unique et permanente donnant accès à l'intégralité de l'interface MLflow, y compris le suivi des expériences, les métriques, les paramètres et les artefacts. Pour les équipes data comptant plusieurs dizaines de data scientists, ce modèle résout un problème opérationnel concret : l'impossibilité de distribuer des URLs présignées à grande échelle, et la charge administrative que représente la gestion des accès individuels à la console AWS. En intégrant MLflow au même portail SSO que les autres outils internes, les data scientists n'ont plus besoin de s'authentifier séparément ni de gérer des identifiants AWS. Les pipelines CI/CD et les scripts d'automatisation peuvent également interagir avec l'API REST MLflow via ce même endpoint proxy, sans modification côté client. Pour les responsables infrastructure, cela signifie moins de tickets d'accès, un onboarding simplifié et une surface d'attaque réduite, l'accès direct au service AWS restant invisible pour l'utilisateur final. MLflow s'est imposé comme standard de facto pour le suivi des expériences de machine learning, mais son intégration dans des environnements d'entreprise avec SSO et portails internes reste un point de friction fréquent. AWS, qui a intégré MLflow nativement dans SageMaker il y a moins d'un an, cherche à faciliter son adoption en entreprise en éliminant les barrières opérationnelles. Cette architecture de proxy inverse n'est pas nouvelle, elle s'applique à de nombreux services AWS accessibles via navigateur, mais sa documentation officielle pour MLflow marque une étape vers un usage plus industrialisé. La solution reste cependant incomplète en production : l'implémentation présentée utilise HTTP sans chiffrement, et AWS recommande explicitement d'ajouter HTTPS via AWS Certificate Manager avant tout déploiement réel. L'intégration SSO effective, mentionnée comme cas d'usage principal, n'est pas non plus couverte dans le guide, laissant aux équipes le soin d'assembler cette couche supplémentaire.

OutilsTuto
1 source
Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic
3AWS ML Blog 

Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic

Amazon et Stream ont annoncé une intégration combinant le framework open-source Vision Agents de Stream avec Amazon Nova 2 Sonic, un modèle de fondation voix-à-voix disponible via Amazon Bedrock. Cette solution permet de construire des agents vocaux en temps réel capables d'être déployés en production en quelques minutes. Nova 2 Sonic prend en charge l'intégralité du pipeline vocal, entrée audio, détection de tour de parole, appel de fonctions et sortie audio, sans recourir à des services séparés de reconnaissance ou de synthèse vocale. Vision Agents, côté Stream, est un framework Python open-source proposant plus de 25 intégrations, des SDK clients pour React, iOS, Android, Flutter et React Native, et une architecture modulaire basée sur des décorateurs. Le réseau edge mondial de Stream complète le dispositif, avec des temps de connexion inférieurs à 500 ms et une latence audio typique de moins de 30 ms. L'enjeu est considérable pour les équipes qui développent des applications vocales : une conversation naturelle exige que la totalité du pipeline, capture du micro, traitement, génération de réponse, restitution audio, s'exécute en quelques centaines de millisecondes. Jusqu'ici, les développeurs devaient consacrer l'essentiel de leur temps non pas à l'IA elle-même, mais à la gestion des connexions WebRTC, aux logiques de reconnexion automatique, à la compatibilité navigateur et à la dégradation gracieuse en cas d'indisponibilité d'un service. Cette charge infrastructure forçait les équipes soit à investir plusieurs mois dans des solutions maison, soit à se contenter de produits clés en main trop rigides. L'intégration Vision Agents + Nova 2 Sonic absorbe cette complexité et libère les développeurs pour se concentrer sur les cas d'usage : support client, automatisation de workflows, actions pilotées par API. La course à l'agent vocal de qualité production s'est intensifiée ces derniers mois, avec OpenAI, Google et Mistral qui proposent chacun des modèles natifs voix-à-voix. Amazon positionne Nova 2 Sonic comme une réponse enterprise via Bedrock, en s'appuyant sur l'écosystème AWS et le réseau de partenaires comme Stream pour accélérer l'adoption. Le support multilingue natif et les capacités de function calling de Nova 2 Sonic ouvrent la voie à des agents vocaux connectés à des systèmes tiers, CRM, bases de données, outils métier, sans couche d'intégration supplémentaire. La prochaine étape pour cet écosystème sera probablement l'extension vers des agents multimodaux combinant voix et vision, une direction que Vision Agents anticipe déjà avec son nom et son architecture.

UELes développeurs et entreprises européens utilisant AWS Bedrock peuvent désormais déployer des agents vocaux en production sans infrastructure supplémentaire grâce à cette intégration.

OutilsOutil
1 source
Amazon Nova 2 Sonic : créer des podcasts conversationnels en temps réel
4AWS ML Blog 

Amazon Nova 2 Sonic : créer des podcasts conversationnels en temps réel

Amazon a lancé Nova Sonic 2, un modèle de compréhension et de génération vocale intégré à sa plateforme Bedrock, capable de produire des conversations audio naturelles en temps réel avec une latence très faible. Le modèle prend en charge sept langues dont le français, l'allemand, l'espagnol et l'hindi, et dispose d'une fenêtre de contexte pouvant atteindre un million de tokens. Nova Sonic 2 offre une API de streaming pour les conversations multi-tours, avec des capacités d'instruction complexe, d'appel d'outils externes et de bascule fluide entre voix et texte. Amazon illustre ses usages avec un générateur de podcasts automatisé : deux hôtes IA conversent en temps réel sur n'importe quel sujet, sans intervention humaine, depuis la recherche jusqu'à la diffusion audio finale. L'enjeu est direct pour les créateurs de contenu et les organisations médias. Produire un podcast traditionnel mobilise studio, matériel, talents vocaux, montage et coordination de planning, des contraintes qui limitent la cadence de publication et le volume de sujets couverts. Nova Sonic 2 supprime la plupart de ces frictions : pas de conflits d'agenda, pas d'irrégularités liées à la disponibilité humaine, et une personnalisation potentielle en temps réel selon le profil de l'auditeur. Pour les entreprises qui cherchent à déployer du contenu audio à grande échelle, formation interne, support client vocal, newsletters audio, le rapport coût-performance revendiqué par Amazon représente un changement structurel dans l'économie de la production audio. Le marché du podcast a connu une croissance explosive ces dernières années, porté par son avantage d'accessibilité unique : il se consomme en faisant autre chose, là où le contenu visuel exige l'attention totale. Plusieurs acteurs technologiques cherchent à capter cette dynamique avec de l'IA générative vocale. OpenAI avec ses voix dans ChatGPT, Google avec NotebookLM Audio Overviews, qui génère déjà des podcasts synthétiques à partir de documents, et ElevenLabs avec ses outils de clonage vocal se positionnent sur ce segment. Amazon entre dans la compétition avec l'avantage de l'intégration native à Bedrock, ses Guardrails de sécurité, ses Agents et ses bases de connaissances, ce qui facilite l'adoption en entreprise. La prochaine étape logique sera la personnalisation dynamique du contenu par auditeur, un terrain encore peu défriché mais que Nova Sonic 2, avec sa fenêtre de contexte d'un million de tokens, semble techniquement en mesure d'adresser.

UELe support natif du français et l'intégration à AWS Bedrock facilitent l'adoption par les médias et entreprises européennes souhaitant automatiser leur production audio.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic