Aller au contenu principal
Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python
OutilsMarkTechPost2h· 2 min de lecture

Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python

Source originale ↗·

NVIDIA a mis à disposition Canary-1B-v2, un modèle de reconnaissance automatique de la parole (ASR) open source d'un milliard de paramètres, accessible via la bibliothèque NeMo et la plateforme Hugging Face. Ce tutoriel publié en 2025 détaille comment construire un pipeline complet de transcription et de traduction multilingue en Python : installation des dépendances (NeMo, librosa, soundfile, NumPy 2.2+, SciPy 1.15+), chargement du modèle sur GPU via CUDA, préparation de l'audio en mono 16 kHz, transcription en anglais, traduction vers 25 langues européennes dont le français, l'espagnol, l'allemand et le russe, génération de timestamps au mot et au segment, export de sous-titres au format SRT, transcription longue durée et traitement par lots avec mesure de performance.

Canary-1B-v2 intéresse les développeurs et les équipes de production audiovisuelle parce qu'il combine en un seul modèle ce qui nécessitait auparavant plusieurs outils distincts : reconnaissance vocale, traduction et synchronisation temporelle pour les sous-titres. La prise en charge native du format SRT permet d'automatiser la création de sous-titres traduits pour des vidéos ou des podcasts sans passer par des services tiers payants. Le pipeline tourne localement sur GPU, ce qui élimine les coûts d'API et les contraintes de confidentialité associées aux solutions cloud comme Whisper via OpenAI ou les services Google Speech-to-Text. La gestion du traitement par lots rend le système viable pour des transcriptions à grande échelle.

Canary-1B-v2 s'inscrit dans la stratégie de NVIDIA de positionner son écosystème NeMo comme référence pour les modèles de parole en entreprise, face à Whisper d'OpenAI, aujourd'hui le standard de facto dans ce domaine, et aux solutions de Meta et Google. Le modèle supporte 25 langues, un périmètre volontairement limité aux langues européennes pour cette version, ce qui laisse entendre qu'une extension est probable. L'accent mis sur la performance GPU s'adresse directement aux utilisateurs disposant déjà d'infrastructure NVIDIA, notamment dans les studios de post-production, les plateformes de e-learning et les médias en ligne. L'export SRT automatisé représente un cas d'usage immédiat et à forte valeur commerciale, à un moment où la demande de sous-titrage multilingue explose sous l'effet des obligations légales d'accessibilité et de la croissance des plateformes vidéo internationales.

Impact France/UE

Le support natif du français parmi 25 langues européennes et les obligations légales d'accessibilité au sous-titrage en vigueur dans l'UE rendent cet outil directement exploitable par les producteurs audiovisuels, plateformes e-learning et médias français souhaitant automatiser le sous-titrage multilingue sans dépendance à des services cloud payants.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte
1Next INpact 

☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte

Canonical prévoit d'intégrer la reconnaissance vocale directement dans les champs texte d'Ubuntu, une fonctionnalité annoncée fin mai par Jon Seager, vice-président de l'ingénierie chez Canonical, lors du dernier Ubuntu Summit. Cette capacité, qui permettrait de dicter du texte dans la quasi-totalité des champs de saisie du système, est ciblée pour Ubuntu 26.10, la version attendue en octobre 2026, sous réserve que les tests se déroulent dans les délais. Seager a également mentionné deux autres fonctions dans le même registre : l'amélioration automatique de l'autofocus de la webcam et la qualité audio du microphone. Ces trois fonctionnalités seront traitées localement par un LLM embarqué, sans précision sur le modèle retenu. Techniquement, l'ensemble sera conditionné par un paquet Snap, que l'utilisateur pourra supprimer s'il ne souhaite pas utiliser ces services. L'apport le plus immédiat concerne l'accessibilité : permettre aux personnes ayant des difficultés motrices ou visuelles d'interagir avec n'importe quelle application via la voix, sans dépendre d'un logiciel tiers ou d'un service cloud. En intégrant cette capacité au niveau du système d'exploitation plutôt que de l'application, Canonical contourne la fragmentation habituelle des solutions d'accessibilité sous Linux, où la couverture varie fortement d'un environnement de bureau à l'autre. Pour les utilisateurs ordinaires, la dictée vocale universelle représente également un gain de productivité concret. Le fait que le traitement soit entièrement local élimine les problèmes de confidentialité liés à l'envoi de données audio vers des serveurs distants, ce qui distingue l'approche de Canonical de solutions comme la dictée Google ou Whisper en mode API. Cette annonce s'inscrit dans un contexte plus large de repositionnement de Canonical autour de l'IA, amorcé en avril dernier et accompagné de son lot de scepticisme dans la communauté open source. Le débat central porte sur la compatibilité des modèles d'IA avec les valeurs du logiciel libre : connaître les poids d'un modèle ne suffit pas, selon Seager, à garantir la transparence à laquelle l'écosystème libre est habitué, ce qui implique une attention particulière aux licences. Canonical semble pour l'instant adopter une stratégie prudente, ajoutant des cas d'usage concrets et limités plutôt que de viser immédiatement un "système agentique" comme le suggèrent ses propres éléments de communication. Une question pratique reste ouverte : un modèle local pèse souvent plusieurs gigaoctets, et l'installeur d'Ubuntu ne semble pas prévoir d'étape permettant à l'utilisateur de choisir explicitement quels services IA il souhaite activer, ce qui pourrait alourdir significativement l'empreinte de stockage de l'installation par défaut.

UEUbuntu étant largement déployé dans les administrations publiques et entreprises européennes, l'approche de traitement vocal entièrement local répond directement aux exigences RGPD en évitant l'envoi de données audio vers des serveurs tiers.

OutilsOutil
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
2MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
3MarkTechPost 

xAI lance des API autonomes de reconnaissance et synthèse vocale Grok pour les développeurs entreprise

xAI, la société d'intelligence artificielle d'Elon Musk, a lancé deux nouvelles API audio autonomes : une API de transcription vocale (Speech-to-Text) et une API de synthèse vocale (Text-to-Speech), toutes deux basées sur la même infrastructure qui alimente Grok Voice sur les applications mobiles, les véhicules Tesla et le support client Starlink. L'API STT est disponible dès maintenant, avec transcription en 25 langues, modes batch et temps réel, à des tarifs de 0,10 dollar par heure en batch et 0,20 dollar en streaming. L'API TTS, elle, est facturée 4,20 dollars par million de caractères, prend en charge 20 langues et propose cinq voix distinctes. Les deux API entrent directement en concurrence avec les acteurs établis du marché : ElevenLabs, Deepgram et AssemblyAI. Ces nouveaux outils s'adressent en priorité aux développeurs qui construisent des agents vocaux, des systèmes de transcription de réunions, des centres d'appels automatisés ou des fonctionnalités d'accessibilité. Sur le plan technique, l'API STT intègre des horodatages au niveau du mot, la diarisation des locuteurs (identification de qui parle à quel moment), le support de 12 formats audio et une normalisation intelligente du texte qui convertit automatiquement les formes orales en formats lisibles. L'API TTS se distingue par sa capacité à injecter des balises expressives dans le texte, comme [laugh], [sigh] ou des balises enveloppantes comme whisper et emphasis, permettant une synthèse vocale naturelle et nuancée, loin de la monotonie des systèmes classiques. Sur les benchmarks internes, xAI revendique un taux d'erreur de 5,0 % pour la reconnaissance d'entités sur appels téléphoniques, contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram et 21,3 % pour AssemblyAI. Ce lancement s'inscrit dans une stratégie d'expansion agressive de xAI, qui cherche à monétiser ses capacités audio au-delà de l'écosystème Grok et à conquérir un marché entreprise où la qualité de transcription et la latence sont des critères décisifs. Le marché des API vocales connaît une forte croissance portée par l'essor des agents IA conversationnels, des outils de réunion automatisés et des interfaces vocales embarquées. Si les performances annoncées se confirment en production, xAI dispose d'un avantage compétitif tangible face à des concurrents bien établis, mais les développeurs attendront des validations indépendantes avant de migrer leurs infrastructures critiques vers une plateforme encore jeune.

💬 Les chiffres du benchmark STT sont impressionnants, 5% d'erreur contre 21% pour AssemblyAI, bon, sur le papier. Le pricing est agressif et les features (diarisation, balises expressives) montrent qu'ils ont bossé le sujet sérieusement, pas juste un wrapper OpenAI Whisper habillé. Reste à voir si ça tient en prod sur des accents français ou du bruit ambiant réel, parce que les benchmarks internes de xAI, j'attends la validation communautaire avant de migrer quoi que ce soit.

OutilsOutil
1 source
☕️ Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10
4Next INpact 

☕️ Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10

Canonical a officiellement présenté le 17 juin le projet Myna, une initiative visant à intégrer la dictée vocale nativement dans Ubuntu Desktop. Prévu pour Ubuntu 26.10, dont la sortie est attendue en octobre 2026, ce système fonctionnera entièrement en local, sans recours à un serveur distant ni à une connexion internet. Le nom Myna fait référence au mainate religieux, un oiseau réputé pour imiter la parole humaine. Dans sa première version, le principe est volontairement simple : l'utilisateur déclenche l'écoute via un raccourci clavier, prononce son texte, et celui-ci s'insère directement dans le champ actif de n'importe quelle application. Cette version initiale ciblera Ubuntu Desktop sous Wayland avec l'environnement GNOME, mais Canonical précise que l'architecture sera conçue pour accueillir d'autres environnements de bureau par la suite. Un dépôt GitHub a été ouvert pour recueillir des retours, même si seule de la documentation y figure pour l'instant. L'enjeu central de Myna est la confidentialité. L'audio capturé par le microphone est effacé de la mémoire immédiatement après traitement, rien n'est transmis à des serveurs, et le micro ne s'active qu'à la demande explicite de l'utilisateur via le raccourci clavier. Pour les professionnels, journalistes, développeurs ou personnes à mobilité réduite qui dictent du texte au quotidien, disposer d'une solution souveraine et offline dans leur système d'exploitation représente un changement de paradigme concret. Jusqu'ici, les solutions de dictée vocale fiables sous Linux reposaient soit sur des services cloud comme Google ou Azure, soit sur des outils tiers complexes à configurer. L'intégration native dans Ubuntu simplifie radicalement l'accès à cette fonctionnalité pour des millions d'utilisateurs. Ce projet s'inscrit dans une stratégie d'IA plus large que Canonical développe depuis plusieurs mois. L'éditeur d'Ubuntu distingue deux grandes familles d'IA : l'IA implicite, qui améliore discrètement des fonctions existantes comme l'autofocus webcam ou la qualité du microphone, et l'IA explicite, que l'utilisateur invoque consciemment. La dictée vocale est la première fonction explicite annoncée, mais elle ouvre la voie à d'autres intégrations d'inférence locale. Cette orientation est cohérente avec une tendance de fond dans l'industrie : après des années de dépendance au cloud pour l'IA, les grands acteurs logiciels, d'Apple avec ses modèles on-device à Microsoft avec Copilot+ PC, misent désormais sur des modèles légers exécutables directement sur le matériel de l'utilisateur. Canonical prend ainsi position dans cette compétition, avec l'avantage différenciateur d'une approche open source et tournée vers la vie privée.

UELes administrations et professionnels français et européens utilisant Ubuntu disposeront d'une solution de dictée vocale souveraine sans dépendance aux services cloud américains, cohérente avec les exigences du RGPD.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic