OutilsVentureBeat AI6sem· 2 min de lecture

Symphony de Corti surpasse OpenAI en précision terminologique médicale dans la transcription vocale

Résumé IASource uniqueImpact UE Take éditorial

La startup danoise Corti a lancé Symphony for Speech-to-Text, une nouvelle génération de modèles de reconnaissance vocale clinique conçus pour la dictée en temps réel, la transcription de conversations et le traitement audio en lot. Selon une étude publiée en parallèle par l'entreprise, ses modèles réduisent le taux d'erreur de mots (WER) jusqu'à 93 % par rapport aux modèles généralistes sur la terminologie médicale. Sur l'anglais médical, Symphony atteint un WER de 1,4 %, contre 17,7 % pour le modèle vocal d'OpenAI, 17,4 % pour Whisper, 18,1 % pour ElevenLabs et 18,9 % pour Parakeet. Sur la reconnaissance d'entités cliniques structurées, dosages, mesures, dates, Symphony affiche un taux de rappel de 98,3 %, alors que le meilleur modèle généraliste testé plafonne à 44,3 %. Andreas Cleve, cofondateur et PDG de Corti, résume l'enjeu : l'objectif est de fournir aux systèmes d'IA des faits cliniques précis sur lesquels raisonner, pas simplement une transcription brute.

Cet écart de 54 points sur le rappel d'entités n'est pas un détail technique : c'est la frontière entre un outil qui fait gagner du temps au médecin et un outil qui engage sa responsabilité juridique. Dans un contexte où les agents IA autonomes commencent à assister activement aux décisions cliniques, à naviguer dans les dossiers médicaux électroniques et à fournir un support en temps réel, la transcription n'est plus un document final pour un humain, elle devient la couche de données fondatrice sur laquelle s'appuient tous les processus suivants. Une confusion entre "hyperthyroïdie" et "hypothyroïdie", ou une mauvaise interprétation d'un dosage médicamenteux, se propage alors à chaque agent en aval, transformant une erreur de transcription isolée en risque systémique. L'architecture de Corti produit directement des sorties cliniques structurées depuis l'API, permettant aux applications de raisonner sur des faits propres plutôt que sur du texte non formaté.

La sortie de Symphony illustre une tension plus profonde dans le monde de l'IA d'entreprise : les modèles fondationnels généralistes, aussi puissants soient-ils, montrent leurs limites dans les secteurs hautement réglementés et à vocabulaire spécialisé. Les urgences médicales, les acronymes cliniques et les abréviations de prescription constituent un défi que ni OpenAI ni Whisper n'ont jusqu'ici su relever avec la fiabilité requise. Corti, fondée à Copenhague et déjà présente dans plusieurs systèmes de santé européens et américains, mise sur cette niche stratégique pour s'imposer comme infrastructure de référence pour les développeurs d'outils d'IA médicale. La question qui se pose désormais pour l'industrie est de savoir si les grands acteurs généralistes vont affiner leurs modèles sur des domaines verticaux, ou si des spécialistes comme Corti sont structurellement mieux placés pour adresser des environnements où une seule erreur peut avoir des conséquences cliniques réelles.

Impact France/UE

Corti, startup danoise déjà intégrée dans plusieurs systèmes de santé européens, positionne Symphony comme infrastructure de référence pour les développeurs d'IA médicale en Europe, un marché soumis aux exigences du règlement sur les dispositifs médicaux (MDR) et du RGPD.

💬 L'analyse de Mathieu

98,3 % de rappel sur les entités cliniques contre 44,3 % pour le meilleur généraliste, ça ne laisse pas de place au débat. Ce n'est pas Corti qui "fait mieux" qu'OpenAI, c'est un domaine où l'entraînement généraliste atteint structurellement ses limites, et où une erreur de dosage propagée à cinq agents en aval, c'est une mise en cause juridique, pas un bug à corriger. Reste à voir si les grands acteurs décident un jour de vraiment s'y mettre, ou si le médical reste une niche que les spécialistes gardent par défaut.

Dans nos dossiers

OpenAI Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Gradium lance stt-translate et s2s-translate, des modèles de traduction vocale en temps réel plus précis et plus rapides que gpt-realtime-translate

Gradium a lancé ce jeudi deux modèles de traduction vocale en temps réel, baptisés stt-translate et s2s-translate, qui s'attaquent directement aux offres de Google et d'OpenAI sur ce marché en pleine expansion. Les deux modèles couvrent cinq langues, anglais, français, allemand, espagnol et portugais, soit vingt paires de traduction dans toutes les directions. stt-translate convertit la parole d'une langue en texte dans une autre en un seul passage, sans transcription intermédiaire, en s'appuyant sur le cadre Hibiki-Zero et un entraînement par apprentissage par renforcement optimisant simultanément la précision et la latence. s2s-translate va plus loin en produisant directement de l'audio traduit depuis de l'audio source, en enchaînant stt-translate avec un modèle TTS de Gradium au sein d'un service unique accessible via WebSocket duplex. La latence moyenne annoncée est de 3,0 secondes, et les flux audio sont gérés en PCM 24 kHz en entrée et 48 kHz en sortie, avec support WAV, Opus, mu-law et A-law. Sur le plan des performances, Gradium affirme surpasser gpt-realtime-translate d'OpenAI sur le score BLEU, la métrique historique de traduction automatique mesurant la fidélité lexicale, tout en étant comparable sur MetricX, le système d'évaluation neuronal de Google qui juge la qualité sémantique selon des critères proches du jugement humain. Face à gemini-3.5-live-translate de Google, Gradium l'emporte sur les deux métriques. La latence de 3,0 secondes se situe devant OpenAI (3,6 s) mais légèrement derrière Gemini (2,9 s), un écart marginal. La différenciation la plus concrète réside dans la flexibilité vocale : Gradium permet de choisir une voix dans un catalogue ou de cloner sa propre voix pour la sortie audio, une fonctionnalité absente chez gpt-realtime-translate et non précisée chez Gemini. Ces modèles s'inscrivent dans une course accélérée à la traduction vocale temps réel, portée par des cas d'usage comme les réunions internationales, le service client multilingue et l'accessibilité. L'approche de Gradium, fusionner transcription et traduction en un seul modèle plutôt qu'enchaîner trois systèmes distincts, réduit la complexité d'intégration et les points de latence. C'est précisément le type d'architecture que les développeurs cherchent pour éviter de gérer plusieurs API et connexions en parallèle. En proposant ces modèles via une interface WebSocket unique avec streaming des résultats, Gradium vise les équipes produit qui construisent des expériences vocales multilingues sans vouloir assembler elles-mêmes une pipeline STT-MT-TTS. Le lancement positionne la startup face à deux des acteurs les plus capitalisés du secteur, avec des résultats de benchmarks qui, s'ils se confirment en production, pourraient en faire un concurrent sérieux sur ce segment.

UELes développeurs européens construisant des applications vocales multilingues peuvent intégrer directement ces modèles via WebSocket, le français et l'allemand étant inclus parmi les cinq langues supportées dès le lancement.

OutilsOpinion

1 source

2MarkTechPost

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion

1 source

3InfoQ AI

OpenAI publie Symphony en open source : un SPEC.md pour l'orchestration d'agents de codage autonomes

OpenAI a publié en open source Symphony, un orchestrateur d'agents de codage autonomes accompagné d'une spécification formelle baptisée SPEC.md. Le système utilise des outils de gestion de projet, comme les gestionnaires de tickets, comme plan de contrôle pour coordonner plusieurs agents travaillant en parallèle. Concrètement, Symphony découpe le travail en "tâches" distinctes, chacune confiée à un agent dédié qui progresse jusqu'à l'achèvement sans intervention humaine continue. Une fois la tâche terminée, un développeur humain examine le résultat avant de valider ou corriger. Ce modèle rompt avec l'approche actuelle où les développeurs supervisent activement chaque session de codage assistée par IA. Avec Symphony, un ingénieur peut déléguer simultanément plusieurs blocs de travail à une flotte d'agents autonomes, ce qui multiplie potentiellement la capacité de production d'une équipe sans augmenter ses effectifs. Pour les entreprises tech, cela annonce des pipelines de développement logiciel beaucoup plus automatisés, où l'humain intervient surtout en phase de validation plutôt qu'en pilotage continu. Symphony émerge dans un contexte de compétition intense autour des agents de codage autonomes. OpenAI affronte Anthropic et son assistant Claude, Google avec Gemini Code Assist, ainsi que des startups comme Cognition AI dont l'agent Devin cible explicitement ce marché. En diffusant Symphony sous forme de spécification ouverte, OpenAI tente d'influencer les standards de l'industrie et d'encourager l'adoption de son approche d'orchestration par d'autres équipes et plateformes. La prochaine étape sera de voir si SPEC.md s'impose comme référence, ou si chaque acteur développe son propre modèle propriétaire.

💬 OpenAI publie une spec ouverte, pas juste du code, et c'est exactement la stratégie qu'on adopte quand on veut que l'industrie entière s'aligne sur ton modèle d'orchestration plutôt que sur celui du voisin. Le truc intéressant dans Symphony, c'est ce glissement : le dev ne pilote plus en continu, il valide à la fin, comme un lead qui fait des code reviews plutôt que du pair-programming permanent. Ça ressemble à du vrai changement de workflow, pas du gadget.

OutilsOutil

1 source

4VentureBeat AI

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise

OpenAI a publié Privacy Filter, un modèle open source spécialisé dans la détection et la suppression des informations personnelles identifiables (PII) avant qu'elles n'atteignent un serveur distant. Disponible sur Hugging Face sous licence Apache 2.0, cet outil repose sur 1,5 milliard de paramètres mais n'en active que 50 millions à chaque traitement, grâce à une architecture Sparse Mixture-of-Experts qui réduit considérablement la charge de calcul. Contrairement aux grands modèles de langage classiques qui lisent un texte de gauche à droite, Privacy Filter est un classificateur bidirectionnel de tokens : il analyse chaque phrase dans les deux sens simultanément, ce qui lui permet de mieux distinguer, par exemple, si le prénom "Alice" désigne une personne privée ou un personnage littéraire public. Le modèle gère une fenêtre de contexte de 128 000 tokens, suffisante pour traiter un document juridique entier en une seule passe, et s'appuie sur un décodeur de Viterbi contraint avec un schéma de balisage BIOES pour garantir la cohérence des entités redactées. Il détecte huit catégories de données sensibles : noms de personnes, coordonnées, identifiants numériques, URLs, numéros de compte, dates et identifiants secrets comme les clés API. L'enjeu concret est considérable pour les entreprises soumises au RGPD ou à la réglementation HIPAA dans le secteur de la santé. En déployant Privacy Filter directement sur leurs serveurs internes ou dans leur cloud privé, elles peuvent anonymiser les données localement avant de les envoyer vers un modèle plus puissant comme GPT-5 ou gpt-oss-120b, sans jamais exposer d'informations sensibles à l'extérieur. Ce modèle résout un problème structurel de l'adoption de l'IA en entreprise : le risque que des données confidentielles, médicales ou financières se retrouvent intégrées dans des pipelines d'inférence ou de fine-tuning hébergés dans le cloud. La possibilité de faire tourner le modèle sur un laptop standard ou directement dans un navigateur web abaisse encore davantage la barrière d'entrée. Cette publication s'inscrit dans un retour marqué d'OpenAI vers l'open source, après des années centrées sur des modèles propriétaires accessibles uniquement via ChatGPT et l'API. Début 2025, l'entreprise avait déjà lancé la famille gpt-oss, des modèles à poids ouverts orientés raisonnement, puis ouvert plusieurs outils d'orchestration agentique. Privacy Filter est un dérivé direct de cette famille gpt-oss, réentraîné pour la classification plutôt que la génération. Ce virage stratégique suggère qu'OpenAI cherche à consolider sa position dans l'écosystème développeur face à la concurrence de Meta (LLaMA), Mistral et Google, en proposant des briques d'infrastructure que les entreprises peuvent intégrer sans dépendance à ses services payants. La prochaine étape logique serait l'extension des catégories PII supportées et l'intégration native dans les frameworks agentiques déjà publiés.

UELes entreprises françaises et européennes soumises au RGPD peuvent déployer Privacy Filter en local pour anonymiser leurs données sensibles avant tout envoi vers un service cloud, réduisant directement leur risque de non-conformité réglementaire.

💬 C'est exactement le verrou qui bloquait l'adoption en entreprise depuis deux ans. Un modèle léger, déployable en local, qui filtre les données personnelles avant d'envoyer vers le cloud : sur le papier, c'est le genre de brique qu'on attendait. Et distribuer ça sous Apache 2.0, c'est malin : si ton pipeline s'appuie sur leurs outils gratuits, tu vas finir par appeler leurs modèles payants derrière.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic