
Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python
NVIDIA a mis à disposition Canary-1B-v2, un modèle de reconnaissance automatique de la parole (ASR) open source d'un milliard de paramètres, accessible via la bibliothèque NeMo et la plateforme Hugging Face. Ce tutoriel publié en 2025 détaille comment construire un pipeline complet de transcription et de traduction multilingue en Python : installation des dépendances (NeMo, librosa, soundfile, NumPy 2.2+, SciPy 1.15+), chargement du modèle sur GPU via CUDA, préparation de l'audio en mono 16 kHz, transcription en anglais, traduction vers 25 langues européennes dont le français, l'espagnol, l'allemand et le russe, génération de timestamps au mot et au segment, export de sous-titres au format SRT, transcription longue durée et traitement par lots avec mesure de performance.
Canary-1B-v2 intéresse les développeurs et les équipes de production audiovisuelle parce qu'il combine en un seul modèle ce qui nécessitait auparavant plusieurs outils distincts : reconnaissance vocale, traduction et synchronisation temporelle pour les sous-titres. La prise en charge native du format SRT permet d'automatiser la création de sous-titres traduits pour des vidéos ou des podcasts sans passer par des services tiers payants. Le pipeline tourne localement sur GPU, ce qui élimine les coûts d'API et les contraintes de confidentialité associées aux solutions cloud comme Whisper via OpenAI ou les services Google Speech-to-Text. La gestion du traitement par lots rend le système viable pour des transcriptions à grande échelle.
Canary-1B-v2 s'inscrit dans la stratégie de NVIDIA de positionner son écosystème NeMo comme référence pour les modèles de parole en entreprise, face à Whisper d'OpenAI, aujourd'hui le standard de facto dans ce domaine, et aux solutions de Meta et Google. Le modèle supporte 25 langues, un périmètre volontairement limité aux langues européennes pour cette version, ce qui laisse entendre qu'une extension est probable. L'accent mis sur la performance GPU s'adresse directement aux utilisateurs disposant déjà d'infrastructure NVIDIA, notamment dans les studios de post-production, les plateformes de e-learning et les médias en ligne. L'export SRT automatisé représente un cas d'usage immédiat et à forte valeur commerciale, à un moment où la demande de sous-titrage multilingue explose sous l'effet des obligations légales d'accessibilité et de la croissance des plateformes vidéo internationales.
Le support natif du français parmi 25 langues européennes et les obligations légales d'accessibilité au sous-titrage en vigueur dans l'UE rendent cet outil directement exploitable par les producteurs audiovisuels, plateformes e-learning et médias français souhaitant automatiser le sous-titrage multilingue sans dépendance à des services cloud payants.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



