Aller au contenu principal
Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale
OutilsThe Decoder12sem· 1 min de lecture

Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale

Source originale ↗·

Cohere a publié un nouveau modèle de reconnaissance vocale open source qui surpasse l'ensemble de ses concurrents sur les benchmarks de référence du secteur, y compris Whisper d'OpenAI, le standard de facto depuis plusieurs années. Le modèle est disponible librement, ce qui permet à n'importe quelle équipe de le déployer, le modifier et l'intégrer sans restrictions de licence.

Cette sortie représente un défi direct à la domination d'OpenAI dans le domaine de la transcription automatique. Whisper, lancé en 2022, s'est imposé comme la solution de référence pour des milliers d'applications professionnelles et open source. Qu'un acteur comme Cohere propose désormais une alternative plus performante et librement accessible change concrètement la donne pour les développeurs, les entreprises et les chercheurs qui cherchent à traiter de l'audio à grande échelle sans dépendance à un fournisseur propriétaire.

Cohere, spécialisé dans les modèles de langage à destination des entreprises, élargit ainsi son périmètre au-delà du texte vers la modalité vocale, un segment en forte croissance. Cette publication s'inscrit dans une tendance plus large où les acteurs de l'IA rivalisent d'open source stratégique pour gagner en adoption et en crédibilité face aux géants comme OpenAI et Google. La qualité des benchmarks annoncés reste à confirmer par la communauté, mais le signal envoyé à l'industrie est clair.

Impact France/UE

Les développeurs et entreprises européens peuvent adopter une alternative open source performante à Whisper pour la transcription vocale, réduisant leur dépendance aux solutions propriétaires américaines.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
1MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production
2VentureBeat AI 

Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production

Cohere a lancé Transcribe, un modèle de reconnaissance vocale automatique (ASR) en open-weight, disponible depuis mars 2026 via API ou dans son Model Vault sous l'identifiant cohere-transcribe-03-2026. Avec 2 milliards de paramètres et une licence Apache-2.0 autorisant un usage commercial immédiat, le modèle affiche un taux d'erreur moyen sur les mots (WER) de 5,42 % — le meilleur score actuellement sur le classement ASR de Hugging Face. Il devance Whisper Large v3 d'OpenAI (7,44 %), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Transcribe prend en charge 14 langues : anglais, français, allemand, italien, espagnol, grec, néerlandais, polonais, portugais, chinois, japonais, coréen, vietnamien et arabe. Sur des benchmarks spécialisés, il obtient 8,15 % sur AMI (compréhension de réunions) et 5,87 % sur VoxPopuli (diversité d'accents). Ce lancement change concrètement la donne pour les entreprises qui construisent des workflows voix, des pipelines de transcription ou des systèmes de recherche audio. Jusqu'ici, elles devaient choisir entre des API fermées — précises mais problématiques pour la souveraineté des données — ou des modèles open source moins performants. Transcribe rompt ce compromis : il tourne sur l'infrastructure GPU locale d'une organisation, éliminant les risques de résidence des données et les pénalités de latence liées aux API externes. Pour les équipes qui construisent des pipelines RAG ou des agents IA intégrant de l'audio, c'est une voie directe vers la transcription de qualité production sans dépendance à un fournisseur cloud. Cohere se positionne depuis plusieurs années comme l'alternative "enterprise-first" aux grands modèles grand public, en misant sur le déploiement privé et la conformité réglementaire. Transcribe s'inscrit dans cette stratégie : là où Whisper avait été publié comme modèle de recherche sous licence MIT sans priorité commerciale immédiate, Cohere livre d'emblée un modèle prêt pour la production. La société précise avoir optimisé simultanément la précision (WER bas) et le débit (RTFx élevé), ce qui est techniquement difficile dans la catégorie des modèles de plus d'un milliard de paramètres. Les premiers utilisateurs ont salué notamment la capacité à rapatrier en interne des flux audio qui transitaient jusqu'alors par des API tierces — un enjeu croissant dans les secteurs soumis au RGPD ou aux réglementations sectorielles strictes comme la finance et la santé.

UELe modèle supporte le français et permet un déploiement on-premise éliminant les risques de résidence des données, un avantage direct pour les entreprises européennes soumises au RGPD dans les secteurs finance et santé.

OutilsOpinion
1 source
Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
3The Decoder 

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

💬 0,4 secondes pour décider de parler ou se taire, c'est le détail qui change tout. Le mode tour par tour des assistants actuels casse l'illusion à chaque échange, et là on a enfin une alternative ouverte avec les poids, le code, et une Apache 2.0 qui ne bloque personne. Les données d'entraînement arrivent "dans un second temps", bon, j'attends de voir si c'est complet.

OutilsActu
1 source
☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte
4Next INpact 

☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte

Canonical prévoit d'intégrer la reconnaissance vocale directement dans les champs texte d'Ubuntu, une fonctionnalité annoncée fin mai par Jon Seager, vice-président de l'ingénierie chez Canonical, lors du dernier Ubuntu Summit. Cette capacité, qui permettrait de dicter du texte dans la quasi-totalité des champs de saisie du système, est ciblée pour Ubuntu 26.10, la version attendue en octobre 2026, sous réserve que les tests se déroulent dans les délais. Seager a également mentionné deux autres fonctions dans le même registre : l'amélioration automatique de l'autofocus de la webcam et la qualité audio du microphone. Ces trois fonctionnalités seront traitées localement par un LLM embarqué, sans précision sur le modèle retenu. Techniquement, l'ensemble sera conditionné par un paquet Snap, que l'utilisateur pourra supprimer s'il ne souhaite pas utiliser ces services. L'apport le plus immédiat concerne l'accessibilité : permettre aux personnes ayant des difficultés motrices ou visuelles d'interagir avec n'importe quelle application via la voix, sans dépendre d'un logiciel tiers ou d'un service cloud. En intégrant cette capacité au niveau du système d'exploitation plutôt que de l'application, Canonical contourne la fragmentation habituelle des solutions d'accessibilité sous Linux, où la couverture varie fortement d'un environnement de bureau à l'autre. Pour les utilisateurs ordinaires, la dictée vocale universelle représente également un gain de productivité concret. Le fait que le traitement soit entièrement local élimine les problèmes de confidentialité liés à l'envoi de données audio vers des serveurs distants, ce qui distingue l'approche de Canonical de solutions comme la dictée Google ou Whisper en mode API. Cette annonce s'inscrit dans un contexte plus large de repositionnement de Canonical autour de l'IA, amorcé en avril dernier et accompagné de son lot de scepticisme dans la communauté open source. Le débat central porte sur la compatibilité des modèles d'IA avec les valeurs du logiciel libre : connaître les poids d'un modèle ne suffit pas, selon Seager, à garantir la transparence à laquelle l'écosystème libre est habitué, ce qui implique une attention particulière aux licences. Canonical semble pour l'instant adopter une stratégie prudente, ajoutant des cas d'usage concrets et limités plutôt que de viser immédiatement un "système agentique" comme le suggèrent ses propres éléments de communication. Une question pratique reste ouverte : un modèle local pèse souvent plusieurs gigaoctets, et l'installeur d'Ubuntu ne semble pas prévoir d'étape permettant à l'utilisateur de choisir explicitement quels services IA il souhaite activer, ce qui pourrait alourdir significativement l'empreinte de stockage de l'installation par défaut.

UEUbuntu étant largement déployé dans les administrations publiques et entreprises européennes, l'approche de traitement vocal entièrement local répond directement aux exigences RGPD en évitant l'envoi de données audio vers des serveurs tiers.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic