
Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles
Google DeepMind a présenté Decoupled DiLoCo (Distributed Low-Communication), une nouvelle architecture d'entraînement distribué conçue pour entraîner de grands modèles de langage sur plusieurs centres de données géographiquement éloignés, sans nécessiter la synchronisation permanente que demandent les approches classiques. L'architecture divise le calcul en groupes de puces indépendants, appelés "learner units", qui s'entraînent de manière semi-autonome avant de partager un signal de gradient compressé avec un optimiseur central. Le gain en bande passante est spectaculaire : là où l'entraînement distribué standard exige environ 198 Gbps de connectivité entre huit centres de données, Decoupled DiLoCo n'en requiert que 0,84 Gbps, soit une réduction de plusieurs ordres de grandeur compatible avec une infrastructure réseau ordinaire. Lors de simulations impliquant 1,2 million de puces soumises à des taux de pannes élevés, le système a maintenu un "goodput" (fraction du temps effectivement consacrée à l'entraînement utile) de 88%, contre seulement 27% pour les méthodes parallèles classiques.
Ces chiffres révèlent un changement profond dans la manière dont on peut envisager l'entraînement à grande échelle. La principale fragilité des architectures actuelles tient à leur synchronisation bloquante : à chaque étape, toutes les puces doivent attendre la plus lente avant de passer à la suivante, ce qui rend un cluster de milliers d'accélérateurs extrêmement vulnérable aux défaillances matérielles. Decoupled DiLoCo rompt avec cette logique en rendant la synchronisation asynchrone : si un groupe de puces tombe en panne ou ralentit, les autres continuent à s'entraîner. L'équipe a poussé le test jusqu'à la "chaos engineering", une méthode qui consiste à introduire délibérément des pannes artificielles pendant un entraînement en cours. Le système a non seulement survécu à la perte de learner units entiers, mais les a réintégrés automatiquement à leur retour, un comportement qualifié d'"auto-réparation".
Decoupled DiLoCo s'appuie sur deux travaux antérieurs de Google : Pathways, un système d'IA distribué fondé sur des flux de données asynchrones permettant à différentes ressources de calcul d'avancer à leur propre rythme, et DiLoCo, qui avait déjà démontré qu'il était possible de réduire drastiquement les communications inter-centres de données en multipliant les étapes locales avant chaque synchronisation. La combinaison des deux ouvre la voie à un entraînement véritablement planétaire, où des centres de données situés sur des continents différents peuvent contribuer à un même modèle sans infrastructure réseau dédiée. Dans un contexte où les modèles frontières mobilisent des centaines de milliards de paramètres et des dizaines de milliers de puces, cette résilience architecturale pourrait devenir une condition sine qua non pour qui veut maintenir des entraînements longs sans interruptions catastrophiques.
Les laboratoires européens travaillant sur l'entraînement de grands modèles pourraient adopter cette approche pour mutualiser des centres de calcul géographiquement dispersés sans infrastructure réseau dédiée coûteuse.




