Aller au contenu principal
Flots normalisants avec débruitage itératif
RechercheApple Machine Learning6sem· 1 min de lecture

Flots normalisants avec débruitage itératif

Source originale ↗·

Des chercheurs ont introduit iTARFlow (iterative TARFlow), une nouvelle architecture de modèle génératif appartenant à la famille des flux normalisants (Normalizing Flows). Contrairement aux modèles de diffusion aujourd'hui dominants, iTARFlow conserve un objectif d'entraînement entièrement basé sur la vraisemblance, calculée de bout en bout sans approximations. Lors de la génération d'images, le modèle combine génération autorégressive et débruitage itératif, une approche hybride inédite pour cette classe de méthodes. Ces travaux s'appuient directement sur TARFlow, un flux normalisant récent qui avait démontré des performances compétitives sur des benchmarks d'images standard.

Cette avancée est significative pour un domaine longtemps éclipsé par les modèles de diffusion et les GAN. Les flux normalisants offrent un avantage théorique majeur : la capacité à calculer exactement la probabilité d'une donnée, ce qui les rend précieux pour la détection d'anomalies, la compression et l'évaluation rigoureuse de modèles. En comblant le fossé de performance qui pénalisait ces méthodes, iTARFlow les rend plus compétitifs pour des applications réelles en synthèse d'images.

Les flux normalisants avaient suscité un fort intérêt entre 2018 et 2020 avant de perdre du terrain face aux modèles de diffusion. TARFlow avait relancé cette famille en montrant que des architectures transformer autorégressive pouvaient rivaliser avec les approches modernes. iTARFlow prolonge cette dynamique en intégrant le débruitage itératif au processus de génération, une technique empruntée aux modèles de diffusion, tout en préservant les garanties mathématiques propres aux flux normalisants. Cette synthèse pourrait marquer le retour en force d'une approche plus interprétable et rigoureuse dans le paysage de la génération d'images.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
1Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
2MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source
Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants
3MarkTechPost 

Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants

Des chercheurs de Sakana AI et de l'Université de Tokyo ont publié DiffusionBlocks, un cadre d'entraînement qui découpe les réseaux de neurones résiduels en blocs indépendants, chacun entraîné séparément comme un module de débruitage. La méthode, décrite dans un article disponible sur arXiv (2506.14202), divise un réseau de L couches en B blocs, ce qui réduit la consommation mémoire d'un facteur B. Concrètement, un réseau découpé en 8 blocs n'a besoin que d'un huitième de la mémoire habituellement requise. Chaque bloc reçoit une plage de niveaux de bruit propre, est conditionné via une normalisation adaptative (AdaLN), et apprend à reconstruire une cible propre à partir de sa version bruitée, sans jamais communiquer avec les autres blocs pendant l'entraînement. Cette avancée s'attaque directement à l'un des goulots d'étranglement les plus contraignants de l'entraînement des grands modèles : la mémoire GPU. Avec la rétropropagation classique de bout en bout, stocker toutes les activations intermédiaires représente un coût qui croît linéairement avec la profondeur du réseau. L'optimiseur Adam aggrave le problème en multipliant par quatre la taille des paramètres (gradients, momentum, variance). Les techniques existantes comme le gradient checkpointing ne réduisent que les activations, pas les états de l'optimiseur. DiffusionBlocks, lui, réduit l'ensemble de l'empreinte mémoire proportionnellement au nombre de blocs, tout en maintenant des performances comparables à l'entraînement classique sur des architectures variées. Pour les équipes qui cherchent à entraîner des modèles toujours plus profonds avec des ressources matérielles limitées, c'est une alternative sérieuse. L'intuition théorique au coeur de la méthode repose sur une connexion établie dans la littérature entre les réseaux résiduels et les équations différentielles ordinaires. Une pile de blocs résiduels peut être interprétée comme une discrétisation par la méthode d'Euler du processus inverse d'un modèle de diffusion, dans sa formulation à variance explosive (VE). Or, dans ces modèles, l'objectif de score matching peut être optimisé indépendamment à chaque niveau de bruit, ce qui justifie mathématiquement l'entraînement bloc par bloc. Les approches antérieures de ce type, comme l'algorithme Forward-Forward de Geoffrey Hinton ou l'entraînement glouton couche par couche, souffraient d'objectifs locaux ad hoc et restaient cantonnées à la classification. DiffusionBlocks comble ce vide théorique tout en s'appliquant aux architectures basées sur les transformeurs, qui dominent aujourd'hui la recherche en IA générative. Sakana AI, connue pour ses travaux à l'intersection de l'évolution artificielle et des réseaux de neurones, confirme avec cette publication son positionnement sur les fondations théoriques de l'apprentissage profond.

RecherchePaper
1 source
HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique
4arXiv cs.RO 

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic