Aller au contenu principal
Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production
OutilsVentureBeat AI12sem· 2 min de lecture

Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production

Source originale ↗·

Cohere a lancé Transcribe, un modèle de reconnaissance vocale automatique (ASR) en open-weight, disponible depuis mars 2026 via API ou dans son Model Vault sous l'identifiant cohere-transcribe-03-2026. Avec 2 milliards de paramètres et une licence Apache-2.0 autorisant un usage commercial immédiat, le modèle affiche un taux d'erreur moyen sur les mots (WER) de 5,42 % — le meilleur score actuellement sur le classement ASR de Hugging Face. Il devance Whisper Large v3 d'OpenAI (7,44 %), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Transcribe prend en charge 14 langues : anglais, français, allemand, italien, espagnol, grec, néerlandais, polonais, portugais, chinois, japonais, coréen, vietnamien et arabe. Sur des benchmarks spécialisés, il obtient 8,15 % sur AMI (compréhension de réunions) et 5,87 % sur VoxPopuli (diversité d'accents).

Ce lancement change concrètement la donne pour les entreprises qui construisent des workflows voix, des pipelines de transcription ou des systèmes de recherche audio. Jusqu'ici, elles devaient choisir entre des API fermées — précises mais problématiques pour la souveraineté des données — ou des modèles open source moins performants. Transcribe rompt ce compromis : il tourne sur l'infrastructure GPU locale d'une organisation, éliminant les risques de résidence des données et les pénalités de latence liées aux API externes. Pour les équipes qui construisent des pipelines RAG ou des agents IA intégrant de l'audio, c'est une voie directe vers la transcription de qualité production sans dépendance à un fournisseur cloud.

Cohere se positionne depuis plusieurs années comme l'alternative "enterprise-first" aux grands modèles grand public, en misant sur le déploiement privé et la conformité réglementaire. Transcribe s'inscrit dans cette stratégie : là où Whisper avait été publié comme modèle de recherche sous licence MIT sans priorité commerciale immédiate, Cohere livre d'emblée un modèle prêt pour la production. La société précise avoir optimisé simultanément la précision (WER bas) et le débit (RTFx élevé), ce qui est techniquement difficile dans la catégorie des modèles de plus d'un milliard de paramètres. Les premiers utilisateurs ont salué notamment la capacité à rapatrier en interne des flux audio qui transitaient jusqu'alors par des API tierces — un enjeu croissant dans les secteurs soumis au RGPD ou aux réglementations sectorielles strictes comme la finance et la santé.

Impact France/UE

Le modèle supporte le français et permet un déploiement on-premise éliminant les risques de résidence des données, un avantage direct pour les entreprises européennes soumises au RGPD dans les secteurs finance et santé.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
1MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale
2The Decoder 

Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale

Cohere a publié un nouveau modèle de reconnaissance vocale open source qui surpasse l'ensemble de ses concurrents sur les benchmarks de référence du secteur, y compris Whisper d'OpenAI, le standard de facto depuis plusieurs années. Le modèle est disponible librement, ce qui permet à n'importe quelle équipe de le déployer, le modifier et l'intégrer sans restrictions de licence. Cette sortie représente un défi direct à la domination d'OpenAI dans le domaine de la transcription automatique. Whisper, lancé en 2022, s'est imposé comme la solution de référence pour des milliers d'applications professionnelles et open source. Qu'un acteur comme Cohere propose désormais une alternative plus performante et librement accessible change concrètement la donne pour les développeurs, les entreprises et les chercheurs qui cherchent à traiter de l'audio à grande échelle sans dépendance à un fournisseur propriétaire. Cohere, spécialisé dans les modèles de langage à destination des entreprises, élargit ainsi son périmètre au-delà du texte vers la modalité vocale, un segment en forte croissance. Cette publication s'inscrit dans une tendance plus large où les acteurs de l'IA rivalisent d'open source stratégique pour gagner en adoption et en crédibilité face aux géants comme OpenAI et Google. La qualité des benchmarks annoncés reste à confirmer par la communauté, mais le signal envoyé à l'industrie est clair.

UELes développeurs et entreprises européens peuvent adopter une alternative open source performante à Whisper pour la transcription vocale, réduisant leur dépendance aux solutions propriétaires américaines.

OutilsActu
1 source
NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming
3MarkTechPost 

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

NVIDIA a lancé Nemotron 3.5 ASR, un modèle de reconnaissance vocale automatique en streaming capable de transcrire 40 variantes linguistiques en temps réel depuis un seul checkpoint de 600 millions de paramètres. Publié en open weights sur Hugging Face sous licence OpenMDW-1.1, le modèle repose sur une architecture Cache-Aware FastConformer-RNNT qui intègre nativement la ponctuation et les majuscules, sans étape de post-traitement supplémentaire. Il couvre des langues aussi variées que l'anglais, le français, l'espagnol, l'arabe, le japonais, le coréen, le mandarin, le hindi ou le thaï, avec un mode de détection automatique de la langue (targetlang=auto) permettant de traiter des flux audio multilingues sans composant externe. La latence est configurable à l'inférence via un paramètre unique (attcontext_size), offrant des modes allant de 80 ms ultra-basse latence jusqu'à 1,12 seconde pour une précision maximale, sans nécessiter de réentraînement. Ce modèle s'attaque directement à l'un des principaux obstacles au déploiement industriel de la transcription vocale en temps réel : la complexité opérationnelle. Jusqu'ici, couvrir plusieurs langues imposait de maintenir autant de modèles distincts, de gérer des pipelines de détection de langue séparés, et de choisir entre latence et précision via des checkpoints différents. Nemotron 3.5 ASR supprime ces trois frictions en un seul déploiement. Pour les équipes produit qui développent des outils de sous-titrage en direct, des assistants vocaux multilingues ou des plateformes de transcription à grande échelle, cela représente une réduction significative de l'infrastructure et du coût d'exploitation. Le fait qu'il soit disponible gratuitement en self-hosting change également la donne face aux services cloud payants comme Nova-3 de Deepgram (~0,0077 $/min) ou Scribe v2 Realtime d'ElevenLabs (~0,28 $/heure). NVIDIA opère depuis plusieurs années une montée en puissance dans le domaine des modèles de traitement du langage parlé, notamment via sa division Nemotron Speech. Ce lancement s'inscrit dans une compétition intense entre acteurs open source et solutions propriétaires : Whisper large-v3 d'OpenAI reste la référence en transcription batch (99 langues, MIT), mais n'est pas natif au streaming ; AssemblyAI (Universal-3 Pro) et Speechmatics se positionnent sur le streaming temps réel, mais avec des couvertures linguistiques plus étroites ou des API fermées. NVIDIA entre dans ce segment avec un modèle à la fois performant, polyglotte et librement hébergeable, ce qui pourrait accélérer son adoption dans les environnements souverains ou à contraintes de confidentialité forte. La prochaine étape probable sera l'intégration dans les pipelines NIM (NVIDIA Inference Microservices) pour simplifier encore le déploiement en production.

UELe modèle couvre explicitement le français parmi ses 40 variantes linguistiques, et son mode self-hosting gratuit facilite le déploiement dans des environnements européens soumis aux exigences de souveraineté des données, réduisant la dépendance aux API cloud américaines payantes.

💬 Un seul checkpoint pour 40 langues en streaming, ponctuation et majuscules intégrées nativement : c'est le genre de truc qu'on attendait depuis 2 ans. Couvrir plusieurs langues en temps réel imposait jusqu'ici de gérer autant de modèles distincts plus un détecteur de langue en amont, bref une usine à gaz. Et là, en self-hosting gratuit face à Deepgram à 0,0077 $ la minute, les équipes qui hésitaient vont vite trancher.

OutilsOpinion
1 source
Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression
4MarkTechPost 

Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression

Supertone a publié Supertonic 3, la troisième génération de son moteur de synthèse vocale embarqué, basé sur le format ONNX. Cette nouvelle version prend en charge 31 langues, contre seulement 5 dans la version précédente (anglais, coréen, espagnol, portugais et français). Parmi les ajouts figurent l'allemand, l'arabe, le japonais, le russe, le turc, le néerlandais ou encore le vietnamien. Le modèle pèse environ 99 millions de paramètres et occupe 404 Mo sur disque, une empreinte nettement inférieure aux systèmes TTS open-source comparables qui atteignent généralement 700 millions à 2 milliards de paramètres. La v3 corrige aussi les erreurs de lecture que l'on observait dans la v2 (répétitions et omissions de mots), et introduit des balises expressives directement insérables dans le texte : `, , ` permettent de contrôler la prosodie sans modèle auxiliaire. Supertone a également lancé en parallèle un outil baptisé Voice Builder, qui permet aux développeurs de créer des modèles vocaux personnalisés à partir de leurs propres enregistrements. La force de Supertonic 3 réside dans sa capacité à fonctionner entièrement hors ligne, sans GPU, sur du matériel très contraint. Le modèle atteint un RTF (Real-Time Factor) de 0,3 sur un Onyx Boox Go 6, une liseuse e-ink sans connexion réseau, ce qui signifie qu'il génère de la parole trois fois plus vite que la durée réelle du son produit. Pour les développeurs d'interfaces vocales, d'outils d'accessibilité ou d'applications embarquées, cela représente un changement concret : plus besoin d'infrastructure cloud, de latence réseau ou de coût de requête à l'API. Le modèle tient dans un appareil mobile bas de gamme et produit une qualité de lecture compétitive face à des modèles bien plus lourds mesurés sur GPU A100, selon les métriques standard WER (Word Error Rate) et CER (Character Error Rate). Supertone, studio sud-coréen spécialisé dans l'audio IA, s'inscrit dans une tendance plus large vers la synthèse vocale locale et souveraine, à l'opposé des services cloud comme ceux d'ElevenLabs ou d'OpenAI. L'architecture repose sur un autoencoder audio, un module de génération par flow matching en seulement 2 étapes d'inférence (plus rapide que la diffusion classique), et une technique d'entraînement Self-Purifying Flow Matching qui rend le modèle résistant aux données bruitées. La v3 intègre aussi LARoPE (Length-Aware Rotary Position Embedding) pour améliorer l'alignement texte-parole. L'écosystème s'est étendu à Flutter (avec support macOS), .NET 9, Go, et au web via onnxruntime-web pour une exécution entièrement côté client. La compatibilité avec les assets ONNX publics de la v2 facilite la migration. La prochaine étape logique serait l'intégration dans des agents vocaux autonomes ou des lecteurs d'écran multilingues embarqués.

UEL'extension à 31 langues incluant plusieurs langues européennes (allemand, néerlandais, russe, arabe) et la capacité de fonctionnement entièrement hors-ligne représentent une opportunité directe pour les développeurs européens d'applications d'accessibilité et d'outils embarqués soumis aux exigences de souveraineté des données.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic