Aller au contenu principal
Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles
RechercheMarkTechPost2sem

Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind a présenté Decoupled DiLoCo (Distributed Low-Communication), une nouvelle architecture d'entraînement distribué conçue pour entraîner de grands modèles de langage sur plusieurs centres de données géographiquement éloignés, sans nécessiter la synchronisation permanente que demandent les approches classiques. L'architecture divise le calcul en groupes de puces indépendants, appelés "learner units", qui s'entraînent de manière semi-autonome avant de partager un signal de gradient compressé avec un optimiseur central. Le gain en bande passante est spectaculaire : là où l'entraînement distribué standard exige environ 198 Gbps de connectivité entre huit centres de données, Decoupled DiLoCo n'en requiert que 0,84 Gbps, soit une réduction de plusieurs ordres de grandeur compatible avec une infrastructure réseau ordinaire. Lors de simulations impliquant 1,2 million de puces soumises à des taux de pannes élevés, le système a maintenu un "goodput" (fraction du temps effectivement consacrée à l'entraînement utile) de 88%, contre seulement 27% pour les méthodes parallèles classiques.

Ces chiffres révèlent un changement profond dans la manière dont on peut envisager l'entraînement à grande échelle. La principale fragilité des architectures actuelles tient à leur synchronisation bloquante : à chaque étape, toutes les puces doivent attendre la plus lente avant de passer à la suivante, ce qui rend un cluster de milliers d'accélérateurs extrêmement vulnérable aux défaillances matérielles. Decoupled DiLoCo rompt avec cette logique en rendant la synchronisation asynchrone : si un groupe de puces tombe en panne ou ralentit, les autres continuent à s'entraîner. L'équipe a poussé le test jusqu'à la "chaos engineering", une méthode qui consiste à introduire délibérément des pannes artificielles pendant un entraînement en cours. Le système a non seulement survécu à la perte de learner units entiers, mais les a réintégrés automatiquement à leur retour, un comportement qualifié d'"auto-réparation".

Decoupled DiLoCo s'appuie sur deux travaux antérieurs de Google : Pathways, un système d'IA distribué fondé sur des flux de données asynchrones permettant à différentes ressources de calcul d'avancer à leur propre rythme, et DiLoCo, qui avait déjà démontré qu'il était possible de réduire drastiquement les communications inter-centres de données en multipliant les étapes locales avant chaque synchronisation. La combinaison des deux ouvre la voie à un entraînement véritablement planétaire, où des centres de données situés sur des continents différents peuvent contribuer à un même modèle sans infrastructure réseau dédiée. Dans un contexte où les modèles frontières mobilisent des centaines de milliards de paramètres et des dizaines de milliers de puces, cette résilience architecturale pourrait devenir une condition sine qua non pour qui veut maintenir des entraînements longs sans interruptions catastrophiques.

Impact France/UE

Les laboratoires européens travaillant sur l'entraînement de grands modèles pourraient adopter cette approche pour mutualiser des centres de calcul géographiquement dispersés sans infrastructure réseau dédiée coûteuse.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
1MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
2MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
3MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
4MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour