Interfaze lance diffusion-gemma-asr-small, un modèle ASR open source à diffusion transcrivant six langues via le décodeur de débruitage parallèle de DiffusionGemma
La startup américaine Interfaze, issue de l'accélérateur Y Combinator, a publié en open source diffusion-gemma-asr-small, un modèle de reconnaissance vocale qui transcrit la parole via un décodeur à diffusion plutôt que par génération autorégressive mot après mot. Présenté comme le premier système de ce type en open source capable de gérer plusieurs langues, il traite six langues avec un seul adaptateur de 42 millions de paramètres, greffé sur le socle figé de DiffusionGemma, le modèle de mélange d'experts à 26 milliards de paramètres de Google (128 experts, 4 milliards actifs par requête), soit seulement 0,16% du poids total. L'architecture combine un encodeur Whisper-small figé, qui convertit l'audio en trames acoustiques, et un projecteur entraîné d'environ 19 millions de paramètres qui les transforme en 188 tokens audio insérés dans DiffusionGemma. Le décodeur débruite ensuite un texte de 192 tokens en une quinzaine d'étapes.
Sur le benchmark LibriSpeech, le modèle affiche un taux d'erreur de mots de 6,6%, devançant son principal rival en diffusion, Whisfusion (8,3%), même s'il reste en retrait par rapport à Whisper, le modèle autorégressif d'OpenAI qui fait référence dans le domaine. L'intérêt principal de l'approche par diffusion tient à son coût de calcul: contrairement aux modèles autorégressifs, dont le temps de transcription augmente avec la longueur du texte, le coût ici dépend uniquement du nombre d'étapes de débruitage, ce qui peut accélérer le traitement de longs enregistrements. Pour les développeurs, la publication de l'adaptateur sous licence Apache 2.0 ouvre la voie à des expérimentations sur une architecture encore marginale, potentiellement utile pour des applications de transcription à grande échelle où la latence compte davantage que la longueur du contenu.
Techniquement, DiffusionGemma ne traitait à l'origine que texte, image et vidéo, sans audio, et repose sur une diffusion à tokens aléatoires uniformes plutôt que sur le schéma de masquage classique utilisé par la plupart des modèles de langage à diffusion. Ajouter l'audio n'a pas été trivial: une première tentative consistant à injecter directement le signal brut dans le modèle a échoué, celui-ci n'ayant jamais appris à reconnaître formants ni phonèmes et se contentant de produire un texte fluide mais inventé. L'entraînement a lui aussi buté sur un problème d'amorçage classique: le projecteur, initialisé aléatoirement, produisait un signal si peu informatif que le mécanisme d'attention a appris à l'ignorer, bloquant la perte autour de 8. L'équipe a résolu ce blocage en supervisant directement le projecteur via une perte CTC (Connectionist Temporal Classification), une technique qui aligne audio et texte sans passer par l'attention, rendant enfin les représentations audio exploitables par le décodeur.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


