
Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants
Des chercheurs de Sakana AI et de l'Université de Tokyo ont publié DiffusionBlocks, un cadre d'entraînement qui découpe les réseaux de neurones résiduels en blocs indépendants, chacun entraîné séparément comme un module de débruitage. La méthode, décrite dans un article disponible sur arXiv (2506.14202), divise un réseau de L couches en B blocs, ce qui réduit la consommation mémoire d'un facteur B. Concrètement, un réseau découpé en 8 blocs n'a besoin que d'un huitième de la mémoire habituellement requise. Chaque bloc reçoit une plage de niveaux de bruit propre, est conditionné via une normalisation adaptative (AdaLN), et apprend à reconstruire une cible propre à partir de sa version bruitée, sans jamais communiquer avec les autres blocs pendant l'entraînement.
Cette avancée s'attaque directement à l'un des goulots d'étranglement les plus contraignants de l'entraînement des grands modèles : la mémoire GPU. Avec la rétropropagation classique de bout en bout, stocker toutes les activations intermédiaires représente un coût qui croît linéairement avec la profondeur du réseau. L'optimiseur Adam aggrave le problème en multipliant par quatre la taille des paramètres (gradients, momentum, variance). Les techniques existantes comme le gradient checkpointing ne réduisent que les activations, pas les états de l'optimiseur. DiffusionBlocks, lui, réduit l'ensemble de l'empreinte mémoire proportionnellement au nombre de blocs, tout en maintenant des performances comparables à l'entraînement classique sur des architectures variées. Pour les équipes qui cherchent à entraîner des modèles toujours plus profonds avec des ressources matérielles limitées, c'est une alternative sérieuse.
L'intuition théorique au coeur de la méthode repose sur une connexion établie dans la littérature entre les réseaux résiduels et les équations différentielles ordinaires. Une pile de blocs résiduels peut être interprétée comme une discrétisation par la méthode d'Euler du processus inverse d'un modèle de diffusion, dans sa formulation à variance explosive (VE). Or, dans ces modèles, l'objectif de score matching peut être optimisé indépendamment à chaque niveau de bruit, ce qui justifie mathématiquement l'entraînement bloc par bloc. Les approches antérieures de ce type, comme l'algorithme Forward-Forward de Geoffrey Hinton ou l'entraînement glouton couche par couche, souffraient d'objectifs locaux ad hoc et restaient cantonnées à la classification. DiffusionBlocks comble ce vide théorique tout en s'appliquant aux architectures basées sur les transformeurs, qui dominent aujourd'hui la recherche en IA générative. Sakana AI, connue pour ses travaux à l'intersection de l'évolution artificielle et des réseaux de neurones, confirme avec cette publication son positionnement sur les fondations théoriques de l'apprentissage profond.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




