Aller au contenu principal
NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming
OutilsMarkTechPost4h

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

Résumé IASource uniqueImpact UE
Source originale ↗·

NVIDIA a lancé Nemotron 3.5 ASR, un modèle de reconnaissance vocale automatique en streaming capable de transcrire 40 variantes linguistiques en temps réel depuis un seul checkpoint de 600 millions de paramètres. Publié en open weights sur Hugging Face sous licence OpenMDW-1.1, le modèle repose sur une architecture Cache-Aware FastConformer-RNNT qui intègre nativement la ponctuation et les majuscules, sans étape de post-traitement supplémentaire. Il couvre des langues aussi variées que l'anglais, le français, l'espagnol, l'arabe, le japonais, le coréen, le mandarin, le hindi ou le thaï, avec un mode de détection automatique de la langue (targetlang=auto) permettant de traiter des flux audio multilingues sans composant externe. La latence est configurable à l'inférence via un paramètre unique (attcontext_size), offrant des modes allant de 80 ms ultra-basse latence jusqu'à 1,12 seconde pour une précision maximale, sans nécessiter de réentraînement.

Ce modèle s'attaque directement à l'un des principaux obstacles au déploiement industriel de la transcription vocale en temps réel : la complexité opérationnelle. Jusqu'ici, couvrir plusieurs langues imposait de maintenir autant de modèles distincts, de gérer des pipelines de détection de langue séparés, et de choisir entre latence et précision via des checkpoints différents. Nemotron 3.5 ASR supprime ces trois frictions en un seul déploiement. Pour les équipes produit qui développent des outils de sous-titrage en direct, des assistants vocaux multilingues ou des plateformes de transcription à grande échelle, cela représente une réduction significative de l'infrastructure et du coût d'exploitation. Le fait qu'il soit disponible gratuitement en self-hosting change également la donne face aux services cloud payants comme Nova-3 de Deepgram (~0,0077 $/min) ou Scribe v2 Realtime d'ElevenLabs (~0,28 $/heure).

NVIDIA opère depuis plusieurs années une montée en puissance dans le domaine des modèles de traitement du langage parlé, notamment via sa division Nemotron Speech. Ce lancement s'inscrit dans une compétition intense entre acteurs open source et solutions propriétaires : Whisper large-v3 d'OpenAI reste la référence en transcription batch (99 langues, MIT), mais n'est pas natif au streaming ; AssemblyAI (Universal-3 Pro) et Speechmatics se positionnent sur le streaming temps réel, mais avec des couvertures linguistiques plus étroites ou des API fermées. NVIDIA entre dans ce segment avec un modèle à la fois performant, polyglotte et librement hébergeable, ce qui pourrait accélérer son adoption dans les environnements souverains ou à contraintes de confidentialité forte. La prochaine étape probable sera l'intégration dans les pipelines NIM (NVIDIA Inference Microservices) pour simplifier encore le déploiement en production.

Impact France/UE

Le modèle couvre explicitement le français parmi ses 40 variantes linguistiques, et son mode self-hosting gratuit facilite le déploiement dans des environnements européens soumis aux exigences de souveraineté des données, réduisant la dépendance aux API cloud américaines payantes.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
1AWS ML Blog 

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel

Amazon vient d'annoncer une nouvelle API de streaming bidirectionnel pour son service de synthèse vocale Amazon Polly, baptisée StartSpeechSynthesisStream. Contrairement aux approches traditionnelles, cette API permet d'envoyer du texte et de recevoir de l'audio simultanément, en flux continu sur une connexion HTTP/2 unique. Les tests de performance réalisés par Amazon portaient sur 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24 kHz, en simulant une génération de tokens à environ 30 ms par mot — soit les conditions réelles d'un grand modèle de langage en production. L'API accepte des fragments de texte au fil de l'eau via des TextEvent, retourne des chunks audio via des AudioEvent, et confirme la fin du flux avec un StreamClosedEvent. Pour les applications d'IA conversationnelle, cette avancée supprime un goulot d'étranglement fondamental. Jusqu'ici, il fallait attendre que le LLM ait terminé de générer l'intégralité de sa réponse, puis envoyer ce texte complet au service TTS, puis attendre l'audio avant de lancer la lecture — trois étapes séquentielles qui s'ajoutaient les unes aux autres. Avec le streaming bidirectionnel, la synthèse vocale démarre dès les premiers tokens générés, ce qui réduit drastiquement la latence perçue par l'utilisateur final. Pour les assistants virtuels, les agents téléphoniques automatisés ou les interfaces vocales en temps réel, cela se traduit par des conversations nettement plus naturelles, sans les silences artificiels qui trahissent une architecture en pipeline. Le lancement s'inscrit dans une course plus large à la latence dans l'écosystème de l'IA générative vocale, où des acteurs comme ElevenLabs, OpenAI (avec son API audio temps réel) et Google se disputent le marché des applications conversationnelles. AWS avait déjà un avantage avec Polly grâce au streaming audio sortant, mais l'entrée simultanée était jusqu'ici absente. La nouvelle API élimine également la complexité côté serveur : les développeurs n'ont plus besoin d'implémenter leur propre logique de découpage de texte en phrases, ni de gérer plusieurs appels API parallèles et le réassemblage audio qui en découlait. Une seule connexion persistante remplace cette infrastructure maison. Les prochaines étapes logiques concerneront probablement l'extension à davantage de voix et de langues avec le moteur Generative, ainsi que l'intégration native dans les frameworks d'agents AWS comme Bedrock.

OutilsOutil
1 source
Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production
2VentureBeat AI 

Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production

Cohere a lancé Transcribe, un modèle de reconnaissance vocale automatique (ASR) en open-weight, disponible depuis mars 2026 via API ou dans son Model Vault sous l'identifiant cohere-transcribe-03-2026. Avec 2 milliards de paramètres et une licence Apache-2.0 autorisant un usage commercial immédiat, le modèle affiche un taux d'erreur moyen sur les mots (WER) de 5,42 % — le meilleur score actuellement sur le classement ASR de Hugging Face. Il devance Whisper Large v3 d'OpenAI (7,44 %), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Transcribe prend en charge 14 langues : anglais, français, allemand, italien, espagnol, grec, néerlandais, polonais, portugais, chinois, japonais, coréen, vietnamien et arabe. Sur des benchmarks spécialisés, il obtient 8,15 % sur AMI (compréhension de réunions) et 5,87 % sur VoxPopuli (diversité d'accents). Ce lancement change concrètement la donne pour les entreprises qui construisent des workflows voix, des pipelines de transcription ou des systèmes de recherche audio. Jusqu'ici, elles devaient choisir entre des API fermées — précises mais problématiques pour la souveraineté des données — ou des modèles open source moins performants. Transcribe rompt ce compromis : il tourne sur l'infrastructure GPU locale d'une organisation, éliminant les risques de résidence des données et les pénalités de latence liées aux API externes. Pour les équipes qui construisent des pipelines RAG ou des agents IA intégrant de l'audio, c'est une voie directe vers la transcription de qualité production sans dépendance à un fournisseur cloud. Cohere se positionne depuis plusieurs années comme l'alternative "enterprise-first" aux grands modèles grand public, en misant sur le déploiement privé et la conformité réglementaire. Transcribe s'inscrit dans cette stratégie : là où Whisper avait été publié comme modèle de recherche sous licence MIT sans priorité commerciale immédiate, Cohere livre d'emblée un modèle prêt pour la production. La société précise avoir optimisé simultanément la précision (WER bas) et le débit (RTFx élevé), ce qui est techniquement difficile dans la catégorie des modèles de plus d'un milliard de paramètres. Les premiers utilisateurs ont salué notamment la capacité à rapatrier en interne des flux audio qui transitaient jusqu'alors par des API tierces — un enjeu croissant dans les secteurs soumis au RGPD ou aux réglementations sectorielles strictes comme la finance et la santé.

UELe modèle supporte le français et permet un déploiement on-premise éliminant les risques de résidence des données, un avantage direct pour les entreprises européennes soumises au RGPD dans les secteurs finance et santé.

OutilsOpinion
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
3MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide
4MarkTechPost 

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

IBM a mis en ligne deux nouveaux modèles de reconnaissance vocale open source, Granite Speech 4.1 2B et Granite Speech 4.1 2B-NAR, disponibles sur Hugging Face sous licence Apache 2.0. Ces modèles compacts d'environ 2 milliards de paramètres visent à résoudre un problème classique des équipes IA en entreprise : les systèmes de transcription automatique performants exigent généralement des ressources de calcul importantes, tandis que les solutions légères sacrifient la précision. Les deux modèles partagent une architecture en trois composants, un encodeur audio, un adaptateur de modalité et un modèle de langage, mais divergent sur le mécanisme de décodage. Le modèle standard prend en charge la transcription multilingue et la traduction bidirectionnelle en anglais, français, allemand, espagnol, portugais et japonais. La variante NAR (non-autorégressif) se concentre uniquement sur la transcription, sans le japonais ni la traduction, mais avec des temps de réponse nettement plus rapides. IBM a également lancé discrètement une troisième variante, Granite Speech 4.1 2B-Plus, qui ajoute l'attribution par locuteur et des horodatages au niveau du mot. Sur le leaderboard Open ASR d'avril 2026, le modèle principal affiche un taux d'erreur sur les mots (WER) moyen de 5,33%, avec 1,33% sur le benchmark LibriSpeech clean, des résultats compétitifs pour un modèle de cette taille. L'intérêt concret de ces modèles réside dans leur efficacité à l'inférence. La version NAR utilise un modèle de langage bidirectionnel de 1 milliard de paramètres qui corrige la transcription en une seule passe, sans générer les tokens un à un comme le font les architectures autorégressives classiques. Cela réduit considérablement la latence, ce qui en fait une option sérieuse pour les applications temps réel, centres d'appels, sous-titrage en direct, assistants vocaux embarqués. Pour les équipes qui ont besoin de traduction ou de transcription en japonais, le modèle autorégressif standard reste nécessaire, mais la version NAR offre un avantage décisif dès que la vitesse prime sur la polyvalence. IBM s'inscrit ici dans une tendance de fond : la course aux modèles de reconnaissance vocale ouverts et compétitifs s'est intensifiée depuis qu'OpenAI a publié Whisper en 2022. Plusieurs acteurs, dont Meta et Nvidia, ont depuis proposé leurs propres alternatives, chacun cherchant à optimiser le rapport précision/coût computationnel. La famille Granite, déjà connue pour ses modèles de langage orientés entreprise, s'étend désormais à l'audio avec une approche modulaire et documentée, ce qui facilite l'intégration dans des pipelines existants. La publication sous licence Apache 2.0 permet un usage commercial sans restriction, ce qui devrait accélérer l'adoption dans des secteurs comme la santé, la finance ou les médias, où la transcription précise et souveraine est un enjeu stratégique.

UELes entreprises européennes des secteurs santé, finance et médias peuvent déployer ces modèles en souveraineté complète grâce à la licence Apache 2.0, avec un support natif du français pour la transcription et la traduction.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour