Aller au contenu principal
OutilsMarkTechPost3h

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

1 source couvre ce sujet·Source originale ↗·

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité.

Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales.

Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

Impact France/UE

Cohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

À lire aussi

101net6min

Il n’y a pas que ChatGPT dans la vie : Apple préparerait un Siri compatible avec toutes les IA

Avec iOS 27, Apple préparerait une refonte majeure de Siri en lui permettant de dialoguer avec n'importe quel chatbot d'intelligence artificielle installé sur l'iPhone, et non plus uniquement ChatGPT. Selon les informations disponibles, cette nouvelle architecture transformerait Siri en véritable hub d'IA, capable de router les requêtes des utilisateurs vers le modèle de leur choix — qu'il s'agisse de Gemini, Claude, Mistral ou d'autres assistants à venir. Ce changement représente un virage stratégique considérable pour Apple, qui reconnaît implicitement que son assistant vocal natif ne peut rivaliser seul avec les grands modèles de langage du marché. Pour les utilisateurs, cela signifie une liberté de choix inédite sur iPhone : accéder à la puissance de n'importe quel LLM sans quitter l'écosystème Apple, simplement en ayant l'application correspondante installée. Cette évolution s'inscrit dans un contexte où Apple accuse un retard significatif en IA générative face à Google, Microsoft et OpenAI. Le partenariat avec OpenAI, annoncé en 2024 et intégré dès iOS 18, n'était qu'une première étape. En ouvrant Siri à toutes les IA tierces, Apple adopte une posture de plateforme plutôt que de compétiteur direct — une approche qui rappelle sa stratégie avec les applications tierces lors du lancement de l'App Store.

UELes utilisateurs européens d'iPhone pourraient bénéficier d'un accès facilité à des modèles comme Mistral directement via Siri, renforçant la visibilité des LLMs européens sur iOS.

OutilsOutil
1 source
2Le Monde Pixels42min

Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis

Manus, l'agent IA développé par la startup chinoise Butterfly Effect (filiale de Monica), a fait irruption sur la scène mondiale début mars 2025, déclenchant une vague d'enthousiasme sans précédent. En quelques jours, la liste d'attente pour accéder à la version bêta a dépassé un million de personnes, tandis que les démonstrations virales montraient l'agent accomplir de manière autonome des tâches complexes : recherche approfondie, rédaction de rapports, gestion de fichiers, navigation web. Contrairement aux chatbots classiques, Manus agit sans supervision humaine continue. L'émergence de Manus s'inscrit dans un contexte de compétition technologique féroce entre Pékin et Washington. Après le choc DeepSeek en janvier 2025, qui avait démontré qu'une IA chinoise pouvait rivaliser avec les meilleurs modèles américains à moindre coût, Manus confirme que la Chine n'entend pas rester en marge de la révolution des agents IA — un segment jugé stratégique par les deux puissances. Cette montée en puissance intervient alors que les États-Unis ont renforcé leurs restrictions sur l'exportation de puces vers la Chine. Nvidia, dont les GPU H100 sont au cœur du développement IA, se retrouve au centre de ces tensions. La capacité des équipes chinoises à produire des résultats compétitifs malgré ces contraintes matérielles soulève des questions sur l'efficacité réelle des sanctions américaines, et laisse présager une intensification de la rivalité technologique entre les deux blocs.

UELa rivalité sino-américaine sur les puces IA et l'émergence d'agents autonomes chinois compétitifs renforcent la pression sur l'Europe pour accélérer sa propre souveraineté technologique en matière d'IA.

OutilsOpinion
1 source
3Le Big Data50min

OpenClaw : le guide ultime des meilleurs Skills pour booster votre agent IA

OpenClaw, l'agent IA local et open source lancé fin 2025, a rapidement dépassé Linux et React sur GitHub pour atteindre plus de 330 000 étoiles, s'imposant comme l'un des projets les plus suivis de la plateforme. Contrairement aux chatbots classiques, OpenClaw agit directement sur la machine de l'utilisateur de manière autonome. Pour étendre ses capacités, la communauté a développé une marketplace d'extensions appelée ClawHub, proposant des milliers de modules baptisés Skills. Parmi les plus plébiscités : le Skill Obsidian, qui synchronise l'agent avec une base de notes locale en Markdown ; le module RAG (Retrieval-Augmented Generation) pour interroger des documents PDF et archives internes sans envoyer de données vers des serveurs externes ; le Skill GOG pour connecter l'agent à Gmail, Google Calendar et Drive via OAuth ; et enfin le Skill GitHub, qui s'appuie sur le CLI officiel `gh` pour gérer le cycle de vie complet d'un dépôt de code. Ce qui distingue OpenClaw des assistants IA classiques, c'est précisément cette capacité à passer de la consultation à l'exécution concrète. Un utilisateur peut demander à l'agent de trier sa boîte mail, rédiger une note structurée dans Obsidian, ou créer une pull request sur GitHub — le tout sans ouvrir un seul onglet de navigateur. Le module RAG est particulièrement stratégique pour les entreprises : il permet d'interroger des gigaoctets de documentation interne sensible en restant entièrement en local, éliminant le risque de fuite de données vers des API tierces. Pour les développeurs, le Skill GitHub transforme l'agent en ingénieur DevOps autonome capable de gérer des workflows complexes sans supervision constante. OpenClaw s'inscrit dans une tendance de fond : la montée des agents IA locaux, souverains et extensibles, portée par la communauté open source. Son ascension fulgurante rappelle celle de projets comme Docker ou Kubernetes en leur temps — des outils qui ont redéfini les pratiques professionnelles en quelques mois. La marketplace ClawHub joue un rôle central dans cet écosystème, en reproduisant le modèle de distribution des extensions de VS Code ou des plugins npm, mais appliqué à l'automatisation par IA. Les prochains enjeux tournent autour de la sécurité des Skills tiers, de la standardisation des interfaces entre modules, et de l'émergence d'agents capables de chaîner plusieurs Skills de manière fiable sur des tâches longues — un défi technique que la communauté commence à peine à adresser.

UELe module RAG local d'OpenClaw répond aux exigences de souveraineté des données imposées par le RGPD, permettant aux entreprises européennes de traiter des documents internes sensibles sans transférer de données vers des serveurs tiers.

OutilsOutil
1 source
4AWS ML Blog1h

Créer une IA adaptée à l'âge et au contexte avec Amazon Bedrock Guardrails

Amazon Web Services a dévoilé une architecture serverless permettant d'adapter automatiquement les réponses d'une IA générative selon le profil de l'utilisateur — son âge, son rôle professionnel et son niveau d'expertise. La solution repose sur Amazon Bedrock Guardrails, un système de filtrage centralisé qui sélectionne dynamiquement l'un des cinq profils de protection disponibles au moment de l'inférence : enfants (conforme COPPA), adolescents en contexte éducatif, professionnels de santé, patients, et adultes grand public. L'authentification passe par Amazon Cognito, les profils utilisateurs sont stockés dans Amazon DynamoDB, et l'ensemble est exposé via Amazon API Gateway et AWS Lambda, sans serveur à gérer. Concrètement, un même prompt reçoit une réponse différente selon que l'appelant est un pédiatre ou un enfant de dix ans. Cette approche répond à un problème réel dans les déploiements IA à grande échelle : les garde-fous basés uniquement sur le prompt sont contournables par des techniques de manipulation — les modèles peuvent être amenés à ignorer leurs instructions de sécurité. En centralisant les politiques dans une couche d'application indépendante du code métier, AWS rend les règles de modération non débordables par l'application elle-même. Pour les secteurs sensibles comme la santé ou l'éducation, où une réponse inappropriée peut avoir des conséquences réelles sur des utilisateurs vulnérables, ce niveau de contrôle devient un prérequis de conformité. Le résultat est aussi une réduction de la complexité opérationnelle : au lieu de maintenir des logiques de personnalisation dans chaque application, une seule configuration centralisée s'applique à l'ensemble du parc. La montée en puissance des applications IA dans des environnements réglementés — santé, éducation, services publics — a mis en lumière les limites du prompt engineering comme seule ligne de défense. Les grandes organisations déploient désormais des couches de gouvernance distinctes du modèle lui-même, une tendance que Google, Microsoft et AWS adressent chacun avec leurs propres systèmes de guardrails. La spécificité de cette implémentation Bedrock est d'associer l'identité authentifiée de l'utilisateur à une politique d'inférence en temps réel, plutôt que de laisser l'application décider. Les suites probables incluent une adoption dans les plateformes e-learning et les portails patients, où le respect du COPPA et du HIPAA est légalement contraignant, et où la traçabilité des décisions de modération devient un enjeu d'audit.

UEL'architecture proposée peut aider les entreprises européennes à se conformer à l'AI Act et au RGPD en déployant des garde-fous contextuels pour les secteurs réglementés comme la santé et l'éducation.

OutilsOutil
1 source