Aller au contenu principal
RechercheMarkTechPost50min· 2 min de lecture

Interfaze lance diffusion-gemma-asr-small, un modèle ASR open source à diffusion transcrivant six langues via le décodeur de débruitage parallèle de DiffusionGemma

Source originale ↗·

La startup américaine Interfaze, issue de l'accélérateur Y Combinator, a publié en open source diffusion-gemma-asr-small, un modèle de reconnaissance vocale qui transcrit la parole via un décodeur à diffusion plutôt que par génération autorégressive mot après mot. Présenté comme le premier système de ce type en open source capable de gérer plusieurs langues, il traite six langues avec un seul adaptateur de 42 millions de paramètres, greffé sur le socle figé de DiffusionGemma, le modèle de mélange d'experts à 26 milliards de paramètres de Google (128 experts, 4 milliards actifs par requête), soit seulement 0,16% du poids total. L'architecture combine un encodeur Whisper-small figé, qui convertit l'audio en trames acoustiques, et un projecteur entraîné d'environ 19 millions de paramètres qui les transforme en 188 tokens audio insérés dans DiffusionGemma. Le décodeur débruite ensuite un texte de 192 tokens en une quinzaine d'étapes.

Sur le benchmark LibriSpeech, le modèle affiche un taux d'erreur de mots de 6,6%, devançant son principal rival en diffusion, Whisfusion (8,3%), même s'il reste en retrait par rapport à Whisper, le modèle autorégressif d'OpenAI qui fait référence dans le domaine. L'intérêt principal de l'approche par diffusion tient à son coût de calcul: contrairement aux modèles autorégressifs, dont le temps de transcription augmente avec la longueur du texte, le coût ici dépend uniquement du nombre d'étapes de débruitage, ce qui peut accélérer le traitement de longs enregistrements. Pour les développeurs, la publication de l'adaptateur sous licence Apache 2.0 ouvre la voie à des expérimentations sur une architecture encore marginale, potentiellement utile pour des applications de transcription à grande échelle où la latence compte davantage que la longueur du contenu.

Techniquement, DiffusionGemma ne traitait à l'origine que texte, image et vidéo, sans audio, et repose sur une diffusion à tokens aléatoires uniformes plutôt que sur le schéma de masquage classique utilisé par la plupart des modèles de langage à diffusion. Ajouter l'audio n'a pas été trivial: une première tentative consistant à injecter directement le signal brut dans le modèle a échoué, celui-ci n'ayant jamais appris à reconnaître formants ni phonèmes et se contentant de produire un texte fluide mais inventé. L'entraînement a lui aussi buté sur un problème d'amorçage classique: le projecteur, initialisé aléatoirement, produisait un signal si peu informatif que le mécanisme d'attention a appris à l'ignorer, bloquant la perte autour de 8. L'équipe a résolu ce blocage en supervisant directement le projecteur via une perte CTC (Connectionist Temporal Classification), une technique qui aligne audio et texte sans passer par l'attention, rendant enfin les représentations audio exploitables par le décodeur.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning 

Diffusion des politiques de démasquage pour les modèles de langage par diffusion

Les modèles de langage à diffusion (dLLMs) atteignent désormais des performances comparables à celles des modèles autorégressifs classiques sur de nombreuses tâches, tout en promettant une meilleure efficacité lors de l'inférence. Un aspect central de leur conception réside dans la procédure d'échantillonnage, c'est-à-dire la méthode qui détermine quels tokens démasquer à chaque étape du processus de diffusion. Des travaux récents montrent que des stratégies heuristiques, comme le seuillage de confiance, améliorent à la fois la qualité des échantillons générés et le débit de tokens par rapport à un démasquage aléatoire. Ces heuristiques nécessitent cependant un réglage manuel minutieux pour fonctionner correctement. Ce constat pose un problème concret pour l'adoption des dLLMs à grande échelle : sans automatisation de ce réglage, chaque nouvelle tâche ou configuration exige une intervention humaine pour ajuster les paramètres de démasquage, ce qui limite la flexibilité et l'efficacité pratique de ces modèles. Or l'un des arguments majeurs en faveur des dLLMs face aux modèles autorégressifs est justement leur potentiel de génération plus rapide, puisqu'ils peuvent en théorie démasquer plusieurs tokens en parallèle plutôt que mot par mot. Si les politiques de démasquage restent dépendantes d'un tuning manuel fragile, ce gain d'efficacité promis reste difficile à exploiter pleinement en conditions réelles. Ces travaux s'inscrivent dans un mouvement de recherche plus large visant à rendre les dLLMs, une alternative encore récente aux architectures autorégressives dominantes comme GPT, réellement compétitifs en production. Après avoir démontré leur viabilité sur le plan de la qualité de génération, la communauté cherche maintenant à automatiser les choix algorithmiques qui restent aujourd'hui confiés à l'intuition des chercheurs, en particulier via des politiques de démasquage apprises plutôt que fixées à la main. L'enjeu porte sur la capacité de ces modèles à généraliser leurs performances sans dépendre d'un réglage spécifique à chaque tâche.

RecherchePaper
1 source
Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants
2MarkTechPost 

Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants

Des chercheurs de Sakana AI et de l'Université de Tokyo ont publié DiffusionBlocks, un cadre d'entraînement qui découpe les réseaux de neurones résiduels en blocs indépendants, chacun entraîné séparément comme un module de débruitage. La méthode, décrite dans un article disponible sur arXiv (2506.14202), divise un réseau de L couches en B blocs, ce qui réduit la consommation mémoire d'un facteur B. Concrètement, un réseau découpé en 8 blocs n'a besoin que d'un huitième de la mémoire habituellement requise. Chaque bloc reçoit une plage de niveaux de bruit propre, est conditionné via une normalisation adaptative (AdaLN), et apprend à reconstruire une cible propre à partir de sa version bruitée, sans jamais communiquer avec les autres blocs pendant l'entraînement. Cette avancée s'attaque directement à l'un des goulots d'étranglement les plus contraignants de l'entraînement des grands modèles : la mémoire GPU. Avec la rétropropagation classique de bout en bout, stocker toutes les activations intermédiaires représente un coût qui croît linéairement avec la profondeur du réseau. L'optimiseur Adam aggrave le problème en multipliant par quatre la taille des paramètres (gradients, momentum, variance). Les techniques existantes comme le gradient checkpointing ne réduisent que les activations, pas les états de l'optimiseur. DiffusionBlocks, lui, réduit l'ensemble de l'empreinte mémoire proportionnellement au nombre de blocs, tout en maintenant des performances comparables à l'entraînement classique sur des architectures variées. Pour les équipes qui cherchent à entraîner des modèles toujours plus profonds avec des ressources matérielles limitées, c'est une alternative sérieuse. L'intuition théorique au coeur de la méthode repose sur une connexion établie dans la littérature entre les réseaux résiduels et les équations différentielles ordinaires. Une pile de blocs résiduels peut être interprétée comme une discrétisation par la méthode d'Euler du processus inverse d'un modèle de diffusion, dans sa formulation à variance explosive (VE). Or, dans ces modèles, l'objectif de score matching peut être optimisé indépendamment à chaque niveau de bruit, ce qui justifie mathématiquement l'entraînement bloc par bloc. Les approches antérieures de ce type, comme l'algorithme Forward-Forward de Geoffrey Hinton ou l'entraînement glouton couche par couche, souffraient d'objectifs locaux ad hoc et restaient cantonnées à la classification. DiffusionBlocks comble ce vide théorique tout en s'appliquant aux architectures basées sur les transformeurs, qui dominent aujourd'hui la recherche en IA générative. Sakana AI, connue pour ses travaux à l'intersection de l'évolution artificielle et des réseaux de neurones, confirme avec cette publication son positionnement sur les fondations théoriques de l'apprentissage profond.

RecherchePaper
1 source
3Apple Machine Learning 

Résumé du contexte de diffusion à contexte résiduel dans les modèles de langage

Une nouvelle piste de recherche vise à rendre les modèles de langage à diffusion plus efficaces en évitant de gâcher du calcul déjà effectué. Les dLLM (diffusion large language models) sont présentés depuis plusieurs mois comme une alternative sérieuse aux modèles autorégressifs classiques du type GPT, car ils peuvent décoder plusieurs tokens simultanément plutôt qu'un seul à la fois, ce qui accélère potentiellement la génération de texte. Les versions les plus avancées de ces modèles, dites "block-wise", utilisent un mécanisme appelé remasking : à chaque étape, seuls les tokens jugés les plus fiables sont conservés et décodés, tandis que tous les autres sont simplement écartés et recalculés plus tard. Des chercheurs montrent que cette approche jette en réalité une information précieuse, puisque les tokens rejetés contiennent malgré tout du contexte utile pour les étapes suivantes de décodage. Ils proposent donc Residual Context Diffusion (RCD), un module conçu pour récupérer et réutiliser ce calcul habituellement perdu. L'enjeu est directement lié au coût de calcul de l'intelligence artificielle générative. Si les modèles à diffusion tiennent leur promesse de générer du texte plus vite grâce au parallélisme, gaspiller une partie des calculs à chaque itération limite leurs gains réels face aux modèles autorégressifs optimisés depuis des années. En recyclant l'information contenue dans les tokens non retenus, RCD permettrait d'améliorer l'efficacité globale du décodage sans changer l'architecture de base des dLLM, ce qui intéresse directement les équipes qui cherchent à réduire la facture énergétique et matérielle de l'inférence à grande échelle. Cette recherche s'inscrit dans une compétition plus large entre deux familles de modèles de langage : les autorégressifs, dominants aujourd'hui, et les modèles à diffusion, longtemps cantonnés à l'image et au son mais de plus en plus étudiés pour le texte. Résoudre le gaspillage de calcul du remasking est une étape technique jugée nécessaire pour que les dLLM deviennent compétitifs en pratique, et pourrait influencer la conception des prochaines générations de modèles génératifs.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
4arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic