Aller au contenu principal
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
OutilsMarkTechPost6sem

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Résumé IASource uniqueImpact UE
Source originale ↗·

Cohere fait une entrée remarquée sur le marché de la reconnaissance vocale automatique avec le lancement de Cohere Transcribe, un modèle ASR (Automatic Speech Recognition) taillé pour les besoins des entreprises. Dès son lancement le 26 mars 2026, le modèle s'est hissé à la première place du classement Hugging Face Open ASR Leaderboard, avec un taux d'erreur moyen (WER) de 5,42 % — une performance qui devance des références établies comme Whisper Large v3 de OpenAI (7,44 %) ou ElevenLabs Scribe v2 (5,83 %).

Ce lancement marque un tournant stratégique pour Cohere, jusqu'ici uniquement positionné sur les modèles de génération de texte et d'embeddings. En s'attaquant à la transcription audio, l'entreprise cible un segment critique pour les entreprises : les réunions, auditions juridiques, appels d'analystes et contenus multimédia non structurés qui représentent une masse considérable de données inexploitées. La promesse est claire — remplacer des pipelines complexes d'API propriétaires par un modèle de production fiable et précis.

Sur le plan technique, Cohere Transcribe repose sur une architecture hybride Conformer-Transformer : un large encodeur Conformer (combinant réseaux convolutifs et Transformers pour capturer à la fois les détails acoustiques fins et le contexte linguistique global) couplé à un décodeur Transformer allégé. Le modèle prend officiellement en charge 14 langues dont l'anglais, le français, l'allemand, l'arabe, le chinois ou le japonais. Pour les fichiers audio longs, un mécanisme de découpage en segments de 35 secondes avec chevauchement garantit la continuité des transcriptions sans saturer la mémoire GPU. Les préférences humaines confirment la supériorité du modèle : les annotateurs l'ont préféré dans 78 % des comparaisons face à IBM Granite 4.0 1B Speech, 67 % contre NVIDIA Canary Qwen 2.5B, et 64 % contre Whisper Large v3.

Avec ce positionnement "qualité sur quantité" — 14 langues maîtrisées plutôt qu'une centaine approximatives —, Cohere signale une ambition claire : s'imposer comme l'alternative entreprise sérieuse aux solutions de Google, OpenAI et ElevenLabs sur un marché de la transcription professionnelle en pleine consolidation.

Impact France/UE

Cohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

xAI lance des API autonomes de reconnaissance et synthèse vocale Grok pour les développeurs entreprise

xAI, la société d'intelligence artificielle d'Elon Musk, a lancé deux nouvelles API audio autonomes : une API de transcription vocale (Speech-to-Text) et une API de synthèse vocale (Text-to-Speech), toutes deux basées sur la même infrastructure qui alimente Grok Voice sur les applications mobiles, les véhicules Tesla et le support client Starlink. L'API STT est disponible dès maintenant, avec transcription en 25 langues, modes batch et temps réel, à des tarifs de 0,10 dollar par heure en batch et 0,20 dollar en streaming. L'API TTS, elle, est facturée 4,20 dollars par million de caractères, prend en charge 20 langues et propose cinq voix distinctes. Les deux API entrent directement en concurrence avec les acteurs établis du marché : ElevenLabs, Deepgram et AssemblyAI. Ces nouveaux outils s'adressent en priorité aux développeurs qui construisent des agents vocaux, des systèmes de transcription de réunions, des centres d'appels automatisés ou des fonctionnalités d'accessibilité. Sur le plan technique, l'API STT intègre des horodatages au niveau du mot, la diarisation des locuteurs (identification de qui parle à quel moment), le support de 12 formats audio et une normalisation intelligente du texte qui convertit automatiquement les formes orales en formats lisibles. L'API TTS se distingue par sa capacité à injecter des balises expressives dans le texte, comme [laugh], [sigh] ou des balises enveloppantes comme whisper et emphasis, permettant une synthèse vocale naturelle et nuancée, loin de la monotonie des systèmes classiques. Sur les benchmarks internes, xAI revendique un taux d'erreur de 5,0 % pour la reconnaissance d'entités sur appels téléphoniques, contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram et 21,3 % pour AssemblyAI. Ce lancement s'inscrit dans une stratégie d'expansion agressive de xAI, qui cherche à monétiser ses capacités audio au-delà de l'écosystème Grok et à conquérir un marché entreprise où la qualité de transcription et la latence sont des critères décisifs. Le marché des API vocales connaît une forte croissance portée par l'essor des agents IA conversationnels, des outils de réunion automatisés et des interfaces vocales embarquées. Si les performances annoncées se confirment en production, xAI dispose d'un avantage compétitif tangible face à des concurrents bien établis, mais les développeurs attendront des validations indépendantes avant de migrer leurs infrastructures critiques vers une plateforme encore jeune.

💬 Les chiffres du benchmark STT sont impressionnants, 5% d'erreur contre 21% pour AssemblyAI, bon, sur le papier. Le pricing est agressif et les features (diarisation, balises expressives) montrent qu'ils ont bossé le sujet sérieusement, pas juste un wrapper OpenAI Whisper habillé. Reste à voir si ça tient en prod sur des accents français ou du bruit ambiant réel, parce que les benchmarks internes de xAI, j'attends la validation communautaire avant de migrer quoi que ce soit.

OutilsOutil
1 source
Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale
2The Decoder 

Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale

Cohere a publié un nouveau modèle de reconnaissance vocale open source qui surpasse l'ensemble de ses concurrents sur les benchmarks de référence du secteur, y compris Whisper d'OpenAI, le standard de facto depuis plusieurs années. Le modèle est disponible librement, ce qui permet à n'importe quelle équipe de le déployer, le modifier et l'intégrer sans restrictions de licence. Cette sortie représente un défi direct à la domination d'OpenAI dans le domaine de la transcription automatique. Whisper, lancé en 2022, s'est imposé comme la solution de référence pour des milliers d'applications professionnelles et open source. Qu'un acteur comme Cohere propose désormais une alternative plus performante et librement accessible change concrètement la donne pour les développeurs, les entreprises et les chercheurs qui cherchent à traiter de l'audio à grande échelle sans dépendance à un fournisseur propriétaire. Cohere, spécialisé dans les modèles de langage à destination des entreprises, élargit ainsi son périmètre au-delà du texte vers la modalité vocale, un segment en forte croissance. Cette publication s'inscrit dans une tendance plus large où les acteurs de l'IA rivalisent d'open source stratégique pour gagner en adoption et en crédibilité face aux géants comme OpenAI et Google. La qualité des benchmarks annoncés reste à confirmer par la communauté, mais le signal envoyé à l'industrie est clair.

UELes développeurs et entreprises européens peuvent adopter une alternative open source performante à Whisper pour la transcription vocale, réduisant leur dépendance aux solutions propriétaires américaines.

OutilsActu
1 source
Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production
3VentureBeat AI 

Cohere lance un modèle ASR open-weight avec 5,4 % d'erreur — suffisant pour remplacer les API vocales en production

Cohere a lancé Transcribe, un modèle de reconnaissance vocale automatique (ASR) en open-weight, disponible depuis mars 2026 via API ou dans son Model Vault sous l'identifiant cohere-transcribe-03-2026. Avec 2 milliards de paramètres et une licence Apache-2.0 autorisant un usage commercial immédiat, le modèle affiche un taux d'erreur moyen sur les mots (WER) de 5,42 % — le meilleur score actuellement sur le classement ASR de Hugging Face. Il devance Whisper Large v3 d'OpenAI (7,44 %), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Transcribe prend en charge 14 langues : anglais, français, allemand, italien, espagnol, grec, néerlandais, polonais, portugais, chinois, japonais, coréen, vietnamien et arabe. Sur des benchmarks spécialisés, il obtient 8,15 % sur AMI (compréhension de réunions) et 5,87 % sur VoxPopuli (diversité d'accents). Ce lancement change concrètement la donne pour les entreprises qui construisent des workflows voix, des pipelines de transcription ou des systèmes de recherche audio. Jusqu'ici, elles devaient choisir entre des API fermées — précises mais problématiques pour la souveraineté des données — ou des modèles open source moins performants. Transcribe rompt ce compromis : il tourne sur l'infrastructure GPU locale d'une organisation, éliminant les risques de résidence des données et les pénalités de latence liées aux API externes. Pour les équipes qui construisent des pipelines RAG ou des agents IA intégrant de l'audio, c'est une voie directe vers la transcription de qualité production sans dépendance à un fournisseur cloud. Cohere se positionne depuis plusieurs années comme l'alternative "enterprise-first" aux grands modèles grand public, en misant sur le déploiement privé et la conformité réglementaire. Transcribe s'inscrit dans cette stratégie : là où Whisper avait été publié comme modèle de recherche sous licence MIT sans priorité commerciale immédiate, Cohere livre d'emblée un modèle prêt pour la production. La société précise avoir optimisé simultanément la précision (WER bas) et le débit (RTFx élevé), ce qui est techniquement difficile dans la catégorie des modèles de plus d'un milliard de paramètres. Les premiers utilisateurs ont salué notamment la capacité à rapatrier en interne des flux audio qui transitaient jusqu'alors par des API tierces — un enjeu croissant dans les secteurs soumis au RGPD ou aux réglementations sectorielles strictes comme la finance et la santé.

UELe modèle supporte le français et permet un déploiement on-premise éliminant les risques de résidence des données, un avantage direct pour les entreprises européennes soumises au RGPD dans les secteurs finance et santé.

OutilsOpinion
1 source
4VentureBeat AI 

Von recommande tous les grands modèles IA pour l'analyse des revenus, et automatise leur combinaison

Von, une nouvelle plateforme d'intelligence artificielle lancée par l'équipe derrière Rattle, une startup spécialisée dans l'automatisation des processus, s'attaque à un paradoxe bien connu dans les entreprises tech : si les outils comme Claude Code ou Cursor ont radicalement transformé le quotidien des développeurs, les équipes commerciales restent, elles, prisonnières de silos de données, de saisies manuelles dans les CRM et de reportings approximatifs. Fondée par Sahil Aggarwal, Von se positionne non pas comme une solution ponctuelle supplémentaire, mais comme une "couche d'intelligence" unifiée pour les équipes Go-To-Market. La plateforme commence par construire un "graphe de contexte" de l'entreprise en ingérant des données structurées issues de CRM comme Salesforce et HubSpot, ainsi que des données non structurées provenant d'enregistreurs d'appels (Gong, Zoom, Chorus), de fils de messagerie et de documentation interne. Elle s'appuie ensuite sur une architecture multi-modèles : Claude d'Anthropic pour le raisonnement de haut niveau, ChatGPT pour le traitement massif de données, et Gemini de Google pour la génération de contenus créatifs comme les présentations et rapports. Lors d'une démonstration, Von a analysé 101 comptes PME pour identifier les risques de désabonnement en un peu plus de trois minutes, une tâche qu'un analyste humain effectuerait en une à deux semaines. L'enjeu est considérable pour les opérations commerciales. L'un des problèmes chroniques des équipes de vente est l'écart entre ce qui est enregistré dans un CRM et ce qui s'est réellement dit lors d'un appel client. Von résout ce problème en croisant automatiquement les transcriptions d'appels avec les données Salesforce, permettant d'identifier des incohérences dans les raisons de pertes de deals ou d'évaluer la santé d'une opportunité commerciale sur la base du sentiment réel exprimé, et non d'une mise à jour manuelle d'un commercial. La plateforme génère également des fiches de briefing pré-appel, des analyses de victoires et défaites commerciales regroupées par thèmes, et automatise les tâches administratives Salesforce à faible valeur ajoutée. En agissant comme un "Data Scientist IA" ou un "VP RevOps" virtuel, Von promet de libérer les équipes des tâches de reporting répétitives pour les recentrer sur la vente. Ce positionnement s'inscrit dans une tendance plus large de l'IA d'entreprise : après avoir conquis les workflows techniques, les grandes plateformes cherchent à s'implanter dans les fonctions commerciales et opérationnelles, historiquement moins automatisées. Von hérite de l'expertise de Rattle dans l'intégration des outils de vente, ce qui lui confère une connaissance fine des flux de données GTM. Le choix d'une stratégie "mixture of models" plutôt que d'un modèle unique reflète une maturité technique croissante dans l'industrie, où l'optimisation coût-performance dicte désormais l'architecture des solutions. La prochaine étape pour Von sera de démontrer sa capacité à s'imposer face à des acteurs établis comme Clari, Gong ou Salesforce Einstein dans un marché de l'intelligence des revenus déjà très concurrentiel et en pleine consolidation.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour