Aller au contenu principal
Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon
RechercheMarkTechPost6sem· 2 min de lecture

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Source originale ↗·

Des chercheurs de Tilde Research ont publié Aurora, un nouvel optimiseur pour l'entraînement de réseaux de neurones qui corrige un défaut structurel présent dans Muon, l'un des optimiseurs les plus adoptés par la communauté depuis 2024. Le problème découvert est frappant : dans les matrices de poids "tall", comme celles des couches MLP basées sur l'architecture SwiGLU, Muon tue silencieusement une fraction importante des neurones au fil de l'entraînement. Dès la 500e étape d'entraînement, plus d'un neurone sur quatre est effectivement mort et ne se réveille plus. Aurora propose une correction mathématique rigoureuse, accompagnée d'un benchmark validé sur un modèle de 1,1 milliard de paramètres, d'un nouveau record sur le classement modded-nanoGPT speedrun, et d'un code publié en accès libre.

Ce bug discret a des conséquences concrètes sur la qualité des modèles entraînés avec Muon. Le mécanisme central de Muon repose sur le calcul d'un "facteur polaire" à partir du gradient, ce qui produit une mise à jour quasi-orthogonale des poids. Mais pour les matrices tall, il est mathématiquement impossible de rester orthogonal tout en maintenant des mises à jour uniformes entre les neurones : l'optimiseur finit par sur-mettre à jour certains neurones et en ignorer d'autres. Les neurones sous-alimentés reçoivent de moins en moins de signal, entrent dans une spirale de mort, et cessent de contribuer au calcul. Cette inactivité se propage aux couches suivantes, privant tout le réseau d'une partie de sa capacité de représentation, sans qu'aucun signal d'erreur ne l'indique clairement.

Muon avait attiré l'attention de la communauté ML en surpassant AdamW en vitesse de convergence sur le benchmark nanoGPT speedrun, une compétition mesurant la rapidité d'entraînement d'un modèle de type GPT. Depuis, plusieurs groupes de recherche travaillant à l'échelle frontier l'ont adopté. Une variante intermédiaire, NorMuon, avait tenté d'améliorer Muon en normalisant les lignes du gradient, mais visait la mauvaise cible : elle imposait une norme de 1 à chaque ligne, alors que la valeur mathématiquement correcte pour une matrice tall est √(n/m). Tilde Research a d'abord formalisé cette correction sous le nom U-NorMuon, qui élimine complètement la mort neuronale à 340 millions de paramètres, avant de développer Aurora comme solution complète préservant à la fois l'uniformité des mises à jour et la précision du facteur polaire. La publication en code ouvert ouvre la voie à une adoption rapide dans les pipelines d'entraînement existants.

Impact France/UE

Les équipes de recherche et labs ML français et européens entraînant des modèles avec Muon peuvent adopter Aurora directement pour éliminer la mort neuronale silencieuse et améliorer la qualité de leurs modèles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
1MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA
2The Decoder 

Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA

Un chercheur de Microsoft a construit un réseau de neurones fonctionnel dans l'éditeur de cartes d'Age of Empires II, en utilisant des chèvres, des ponts et des rampes de glace. Le système reproduit fidèlement les opérations mathématiques d'un réseau de neurones artificiel classique, avec des unités logiques remplacées par des animaux qui se déplacent selon des règles précises. Ce qui ressemble à une expérience absurde est en réalité une démonstration délibérément provocatrice. L'objectif est de mettre en lumière un biais méthodologique profond dans la recherche sur l'IA. En analysant 315 articles scientifiques, le chercheur a constaté que plus de la moitié d'entre eux présupposaient des traits humains chez les modèles de langage avant même que l'expérience ne commence. Or, si l'on remplace une interface de chat par des chèvres errantes, les mathématiques sous-jacentes ne changent pas, mais l'impression de dialoguer avec une entité consciente disparaît immédiatement. C'est précisément ce sentiment, et non les données, qui influence les conclusions de nombreuses études. Cette démonstration s'inscrit dans un débat scientifique plus large sur l'anthropomorphisation des systèmes d'IA. Depuis l'émergence des grands modèles de langage comme GPT-4 ou Gemini, une partie de la communauté académique tend à projeter des capacités cognitives humaines sur des systèmes qui ne font qu'optimiser des probabilités statistiques. En montrant qu'un troupeau de chèvres peut réaliser les mêmes calculs qu'un réseau neuronal, le chercheur pousse ses pairs à interroger leurs cadres d'interprétation avant de publier des conclusions sur la "compréhension" ou la "conscience" des modèles.

RecherchePaper
1 source
NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial
3MarkTechPost 

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial

Les chercheurs de NVIDIA ont publié SpatialClaw, un framework d'agent pour le raisonnement spatial qui ne nécessite aucun réentraînement des modèles. Testé sur 20 benchmarks couvrant cinq catégories de tâches visuelles (image unique, multi-vues, vidéo, 4D et compréhension vidéo générale), le système atteint 59,9 % de précision moyenne, soit 11,2 points de plus que SpaceTools, le précédent agent spatial de référence. SpatialClaw fonctionne comme une boucle agentique enveloppant un noyau Python persistant, pré-chargé avec les images d'entrée et un ensemble de primitives de perception. Deux outils sont au cœur du système : Reconstruct, qui s'appuie sur Depth Anything 3 pour produire cartes de profondeur, géométrie caméra et nuages de points, et SAM3, qui exploite SAM 3 pour générer des masques vidéo ou image à partir de texte ou de coordonnées. Le système a été évalué sur six architectures de modèles allant de 26 à 397 milliards de paramètres, issues des familles Qwen3 et Gemma4. Le vrai apport de SpatialClaw est moins dans ses outils que dans la manière dont l'agent les utilise. NVIDIA a comparé trois interfaces d'action sur les mêmes outils et le même prompt : code en passe unique (+1,8 point sur la baseline sans outil), appels structurés via schéma JSON (+3,3 points), et l'interface de SpatialClaw où le code lui-même est l'interface d'action (+6,5 points). La différence tient à la capacité d'inspection intermédiaire : plutôt que de soumettre un programme complet sans retour, l'agent observe les résultats partiels et révise sa stratégie en cours de route. Sur un exemple concret, mesurer la distance minimale entre un radiateur et une porte, l'agent corrige son premier calcul de centroïde en basculant vers scipy.spatial.KDTree, obtenant 0,9439 m contre une vérité terrain à 0,9 m. Les gains les plus importants apparaissent sur les tâches dynamiques : +17,6 points sur DSI-Bench et +15,3 sur MindCube avec le backbone Gemma4-31B. Le raisonnement spatial reste l'un des talons d'Achille des grands modèles vision-langage : localiser précisément des objets, estimer leurs relations géométriques et suivre leurs trajectoires dans un espace 3D dépasse les capacités actuelles de la plupart des VLM, quelle que soit leur taille. Les approches existantes comme VADAR ou pySpatial utilisaient toutes du code en passe unique ou des appels d'outils structurés, avec des résultats limités à respectivement 40,5 % et 47,8 % de moyenne. En traitant le code comme interface d'action native plutôt que comme sortie figée, NVIDIA propose une solution qui s'applique à n'importe quel modèle sans modifier ses poids, ce qui facilite l'adoption. Le framework est documenté sur le site du projet et représente un signal fort pour les applications robotiques, les véhicules autonomes et les systèmes d'assistance visuelle, où la précision géométrique est non négociable.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. NVIDIA avec SpatialClaw, c'est une évolution concrète dans le raisonnement spatial. Le truc, c'est qu'ils ont su tirer parti du code comme interface d'action directe, pas juste comme sortie figée. Cela signifie que les agents peuvent s'ajuster en temps réel, corriger et améliorer leurs calculs grâce à une inspection intermédiaire. Sur des tâches dynamiques, les gains sont substantiels, ce qui montre qu'on touche quelque chose de pertinent pour les robots, les voitures autonomes et les systèmes d'aide visuelle où la précision est primordiale. C'est pas juste un ajout de performance, c'est une nouvelle manière de travailler avec l'IA.

RecherchePaper
1 source
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
4MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic