Aller au contenu principal
smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3
OutilsMarkTechPost2sem

smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3

Résumé IASource uniqueImpact UE
Source originale ↗·

L'équipe Deep-unlearning a publié smol-audio, une collection de notebooks Jupyter autonomes conçus pour faciliter le fine-tuning des grands modèles audio du moment. Le dépôt, distribué sous licence Apache-2.0, couvre quatre familles de modèles de reconnaissance automatique de la parole : Whisper d'OpenAI, Parakeet de NVIDIA, Voxtral de Mistral et Granite Speech d'IBM, ainsi que des recettes pour la compréhension audio avec Audio Flamingo 3. Chaque notebook est conçu pour s'exécuter directement dans Google Colab avec un runtime de 16 Go, ce qui le rend accessible gratuitement sans installation locale. L'ensemble repose exclusivement sur l'écosystème Hugging Face, notamment les bibliothèques transformers, datasets, peft et accelerate. L'architecture de chaque modèle impose un traitement différent : Whisper utilise une approche séquence-à-séquence classique, Parakeet repose sur le CTC (Connectionist Temporal Classification), plus rapide à l'inférence, tandis que Voxtral est construit sur un backbone de grand modèle de langage, Ministral 3B pour sa version Mini et Mistral Small 3.1 24B pour sa version Small, ce qui nécessite un masquage des tokens de prompt pendant l'entraînement pour éviter des dynamiques dégradées.

Ce projet comble un vide réel dans la chaîne de travail des ingénieurs en machine learning. Jusqu'ici, les connaissances pratiques pour adapter ces modèles à un nouveau domaine ou une nouvelle langue étaient dispersées entre des issues GitHub, des billets de blog et des notebooks privés jamais partagés. smol-audio expose chaque étape du pipeline sans abstraire la complexité derrière des fonctions de commodité : la boucle d'entraînement est lisible, le pipeline de données est explicite et la configuration est modifiable directement. Pour un ingénieur débutant, c'est un outil pédagogique ; pour un praticien expérimenté, c'est un point de départ de référence qui évite des heures de débogage. Le support du fine-tuning partiel via LoRA (Low-Rank Adaptation) est particulièrement utile pour les modèles lourds comme Parakeet ou Voxtral, où un fine-tuning complet dépasse souvent les ressources disponibles.

Ce lancement s'inscrit dans une année particulièrement dense pour l'audio IA. Les modèles de reconnaissance vocale ont bondi en qualité avec Whisper, Parakeet et Voxtral ; la synthèse vocale conversationnelle a franchi un cap avec Dia-1.6B de Nari Labs ; et Meta a publié le Perception Encoder Audiovisual (PE-AV), un encodeur multimodal capable de construire un espace d'embedding commun entre audio, vidéo et texte. La frontière technique avance vite, mais l'outillage pratique peine à suivre. smol-audio tente de réduire cet écart en standardisant les recettes d'entraînement autour de l'écosystème Hugging Face, qui s'impose progressivement comme infrastructure commune pour l'expérimentation sur ces modèles. Le dépôt devrait s'étoffer à mesure que de nouveaux modèles audio émergent.

Impact France/UE

Le dépôt couvre Voxtral, le modèle audio de Mistral (entreprise française), et permet aux développeurs européens d'adapter ces modèles à des langues régionales ou des domaines métier sans infrastructure coûteuse.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide
1MarkTechPost 

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

IBM a mis en ligne deux nouveaux modèles de reconnaissance vocale open source, Granite Speech 4.1 2B et Granite Speech 4.1 2B-NAR, disponibles sur Hugging Face sous licence Apache 2.0. Ces modèles compacts d'environ 2 milliards de paramètres visent à résoudre un problème classique des équipes IA en entreprise : les systèmes de transcription automatique performants exigent généralement des ressources de calcul importantes, tandis que les solutions légères sacrifient la précision. Les deux modèles partagent une architecture en trois composants, un encodeur audio, un adaptateur de modalité et un modèle de langage, mais divergent sur le mécanisme de décodage. Le modèle standard prend en charge la transcription multilingue et la traduction bidirectionnelle en anglais, français, allemand, espagnol, portugais et japonais. La variante NAR (non-autorégressif) se concentre uniquement sur la transcription, sans le japonais ni la traduction, mais avec des temps de réponse nettement plus rapides. IBM a également lancé discrètement une troisième variante, Granite Speech 4.1 2B-Plus, qui ajoute l'attribution par locuteur et des horodatages au niveau du mot. Sur le leaderboard Open ASR d'avril 2026, le modèle principal affiche un taux d'erreur sur les mots (WER) moyen de 5,33%, avec 1,33% sur le benchmark LibriSpeech clean, des résultats compétitifs pour un modèle de cette taille. L'intérêt concret de ces modèles réside dans leur efficacité à l'inférence. La version NAR utilise un modèle de langage bidirectionnel de 1 milliard de paramètres qui corrige la transcription en une seule passe, sans générer les tokens un à un comme le font les architectures autorégressives classiques. Cela réduit considérablement la latence, ce qui en fait une option sérieuse pour les applications temps réel, centres d'appels, sous-titrage en direct, assistants vocaux embarqués. Pour les équipes qui ont besoin de traduction ou de transcription en japonais, le modèle autorégressif standard reste nécessaire, mais la version NAR offre un avantage décisif dès que la vitesse prime sur la polyvalence. IBM s'inscrit ici dans une tendance de fond : la course aux modèles de reconnaissance vocale ouverts et compétitifs s'est intensifiée depuis qu'OpenAI a publié Whisper en 2022. Plusieurs acteurs, dont Meta et Nvidia, ont depuis proposé leurs propres alternatives, chacun cherchant à optimiser le rapport précision/coût computationnel. La famille Granite, déjà connue pour ses modèles de langage orientés entreprise, s'étend désormais à l'audio avec une approche modulaire et documentée, ce qui facilite l'intégration dans des pipelines existants. La publication sous licence Apache 2.0 permet un usage commercial sans restriction, ce qui devrait accélérer l'adoption dans des secteurs comme la santé, la finance ou les médias, où la transcription précise et souveraine est un enjeu stratégique.

UELes entreprises européennes des secteurs santé, finance et médias peuvent déployer ces modèles en souveraineté complète grâce à la licence Apache 2.0, avec un support natif du français pour la transcription et la traduction.

OutilsOpinion
1 source
Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch
2AWS ML Blog 

Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch

NVIDIA a publié en août 2025 Parakeet-TDT-0.6B-v3, un modèle de transcription automatique de la parole open source couvrant 25 langues européennes, dont le français, l'allemand, l'espagnol, le polonais ou l'ukrainien. Capable de détecter automatiquement la langue parlée, ce modèle affiche un taux d'erreur sur les mots de 6,34 % en conditions acoustiques propres et de 11,66 % à 0 dB de rapport signal/bruit, tout en prenant en charge des fichiers audio allant jusqu'à trois heures. Distribué sous licence CC-BY-4.0, il s'appuie sur une architecture Token-and-Duration Transducer (TDT) qui prédit simultanément les tokens de texte et leur durée, permettant de sauter silences et segments redondants pour atteindre des vitesses d'inférence très largement supérieures au temps réel. Dans la configuration présentée, le modèle tourne sur AWS Batch avec des instances GPU G6 équipées de NVIDIA L4, qui offrent le meilleur ratio coût/performance, bien qu'il soit également compatible avec des instances G5, G4dn ou P5 pour un débit maximal. Le pipeline est entièrement événementiel : un fichier audio déposé sur Amazon S3 déclenche une règle Amazon EventBridge, qui soumet automatiquement un job à AWS Batch, lequel provisionne les ressources, télécharge l'image de conteneur depuis Amazon ECR et restitue une transcription JSON horodatée dans un bucket de sortie. Le coût final descend à quelques fractions de centime par heure d'audio. L'enjeu principal est économique. Pour les organisations traitant des volumes massifs d'audio, qu'il s'agisse d'archives médias, d'enregistrements de centres d'appels, de données d'entraînement pour l'IA ou de sous-titrage vidéo à la demande, les services ASR gérés facturent généralement à la durée réelle du fichier, ce qui fait exploser les coûts dès que les volumes augmentent. En ne payant que de brèves fenêtres de calcul GPU plutôt que la totalité de la durée audio, combiné à l'utilisation d'instances EC2 Spot moins onéreuses et au streaming par tampons, ce pipeline peut réduire la facture de transcription de façon substantielle par rapport aux APIs cloud classiques comme celles d'AWS Transcribe ou de Google Speech-to-Text. La prise en charge native de 25 langues sans configuration par langue supprime également une complexité opérationnelle significative pour les entreprises internationales. Cette approche s'inscrit dans une tendance plus large consistant à substituer des modèles open source performants aux services gérés pour les charges de travail à fort volume. NVIDIA, qui diffuse Parakeet dans le cadre de son écosystème NeMo, cherche à s'imposer comme référence en ASR face à OpenAI avec Whisper, à AssemblyAI ou encore à Amazon Transcribe. Le fait qu'un modèle de 600 millions de paramètres atteigne ces niveaux de précision multilingue ouvre la voie à des pipelines entièrement maîtrisés, hébergés en interne ou dans un cloud privé, sans dépendance à un fournisseur. La prochaine étape logique pour les équipes qui adoptent cette architecture sera d'enchaîner directement en aval des modules de post-traitement automatisés, résumé, analyse de sentiment ou détection d'entités, pour extraire encore plus de valeur des transcriptions produites.

UELe modèle Parakeet couvre nativement 25 langues européennes dont le français, offrant aux organisations françaises et européennes un pipeline de transcription audio économique et souverain, sans dépendance à un service ASR propriétaire.

OutilsTuto
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
3AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source
Guide complet pour construire un pipeline de détection et suppression des données personnelles avec OpenAI Privacy Filter
4MarkTechPost 

Guide complet pour construire un pipeline de détection et suppression des données personnelles avec OpenAI Privacy Filter

OpenAI a mis à disposition sur HuggingFace un modèle de classification de tokens baptisé openai/privacy-filter, conçu pour détecter et masquer automatiquement les données personnelles dans des textes. Un tutoriel détaillé publié cette semaine montre comment construire, étape par étape, un pipeline complet de détection et de rédaction des informations personnellement identifiables (PII) prêt pour la production. Le système, implémenté en Python avec les bibliothèques Transformers d'HuggingFace, PyTorch et pandas, identifie huit catégories de données sensibles : noms de personnes, adresses e-mail, numéros de téléphone, adresses physiques, URL privées, dates, numéros de compte et secrets. Chaque entité détectée est remplacée par un marqueur typé comme [PRIVATEPERSON] ou [PRIVATEEMAIL], ce qui préserve la lisibilité du texte tout en occultant les informations sensibles. Le pipeline fonctionne aussi bien sur GPU que sur CPU, avec un seuil de confiance configurable fixé par défaut à 0,50 pour filtrer les faux positifs. L'intérêt concret de ce type de pipeline est considérable pour les entreprises qui manipulent des données clients avant de les envoyer vers des LLM externes ou des systèmes de journalisation. En substituant les entités sensibles par des placeholders sémantiquement clairs plutôt qu'un simple [REDACTED] générique, le texte reste exploitable par des modèles en aval sans exposer de données privées. Cette approche répond directement aux exigences du RGPD et aux politiques d'utilisation des API d'IA, qui interdisent souvent l'envoi de données personnelles non anonymisées. Le pipeline inclut également un système de rapport structuré convertissant les résultats en dataframes pandas, ce qui facilite l'audit et le traitement par lots à grande échelle. La protection des données personnelles dans les flux d'ingestion vers les LLM est devenue un enjeu critique depuis que des entreprises comme Samsung ont interdit l'usage de ChatGPT en interne après des fuites accidentelles de code source confidentiel. La mise à disposition d'un modèle dédié par OpenAI sur HuggingFace marque une évolution : plutôt que de laisser chaque organisation bricoler sa propre solution d'anonymisation, un modèle de référence mutualisé, entraîné spécifiquement sur cette tâche, peut s'intégrer directement dans les pipelines existants. Le choix d'une architecture de classification de tokens, plus précise que les approches par expressions régulières, permet de gérer les ambiguïtés contextuelles, comme distinguer une date de naissance privée d'une date de publication publique. Les prochaines étapes naturelles pour ce type de système incluent le support multilingue, l'ajout de catégories sectorielles (numéros de sécurité sociale, données médicales), et l'intégration dans des frameworks d'orchestration comme LangChain ou LlamaIndex.

UELe pipeline répond directement aux obligations du RGPD pour les entreprises européennes qui transmettent des données personnelles à des LLM externes, réduisant le risque de non-conformité.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour