Aller au contenu principal
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
RechercheMarkTechPost6sem· 2 min de lecture

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Source originale ↗·

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu.

TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle.

L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

Impact France/UE

Les laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
1MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
2MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
DFlash accélère le décodage spéculatif par blocs de tokens en parallèle, jusqu'à 15x plus de débit sur NVIDIA Blackwell
3MarkTechPost 

DFlash accélère le décodage spéculatif par blocs de tokens en parallèle, jusqu'à 15x plus de débit sur NVIDIA Blackwell

Une équipe de chercheurs de l'UC San Diego (z-lab) a publié DFlash, une nouvelle technique d'inférence qui accélère radicalement la génération de texte par les grands modèles de langage. Là où les approches classiques de décodage spéculatif, comme EAGLE-3, proposent encore les tokens futurs un par un, DFlash adopte une logique de diffusion par blocs : un modèle léger génère un bloc entier de tokens en une seule passe parallèle, puis le grand modèle cible vérifie ce bloc simultanément. Les gains mesurés dépassent 6x d'accélération sans perte de qualité sur une variété de modèles et de tâches. Sur Qwen3-8B avec décodage glouton, DFlash atteint une accélération moyenne de 4,86x, contre 2,02x pour EAGLE-3 dans sa meilleure configuration. Sur les architectures NVIDIA Blackwell, les équipes d'ingénierie de NVIDIA rapportent jusqu'à 15x de débit supplémentaire sur gpt-oss-120b, à cible d'interactivité utilisateur constante, soit environ 2,5x mieux qu'EAGLE-3. Cette progression est significative pour toute l'industrie de l'inférence LLM, notamment pour les modèles de raisonnement à longue chaîne de pensée (Chain-of-Thought), dont la lenteur de génération est devenue le principal goulot d'étranglement opérationnel. Le principal avantage de DFlash réside dans son architecture : son drafter ne comporte que cinq couches (huit pour Qwen3-Coder), là où des approches antérieures comme DiffuSpec ou SpecDiff-2 mobilisaient des drafters de 7 milliards de paramètres pour plafonner à 3-4x. En injectant les représentations internes du modèle cible directement dans les projections Key et Value de chaque couche du drafter, DFlash maintient un signal fort quel que soit la profondeur de génération. Un drafter DFlash à cinq couches générant 16 tokens surpasse EAGLE-3 générant 8 tokens, à la fois en latence et en taux d'acceptation. Le décodage spéculatif existe depuis plusieurs années comme réponse à la sous-utilisation chronique des GPU modernes lors de l'inférence autoregressive : un petit modèle propose, un grand modèle vérifie en parallèle, et les tokens acceptés préservent la distribution de sortie originale. Mais la contrainte autoregressif du drafter limitait les gains réels à 2-3x en production. DFlash contourne ce plafond en empruntant aux modèles de diffusion leur capacité à débruiter un bloc masqué en une passe, sans assumer les inconvénients habituels des LLM diffusion purs, souvent moins précis et nécessitant de nombreuses étapes. La prochaine étape pour z-lab et NVIDIA sera de valider ces résultats en production multi-flux et à grande échelle, mais les chiffres actuels font de DFlash un candidat sérieux à l'adoption dans les infrastructures d'inférence haute performance.

UELes opérateurs européens d'inférence LLM (clouds souverains, startups IA) pourraient bénéficier indirectement d'une réduction significative des coûts de calcul si DFlash est intégré aux frameworks open-source comme vLLM ou SGLang.

💬 Le décodage spéculatif tournait en rond depuis des années, coincé à 2-3x de gain en production. DFlash passe à autre chose : un drafter de 5 couches génère des blocs entiers en parallèle et dépasse EAGLE-3 sous tous les angles, ce qui explique les 15x rapportés sur Blackwell et redéfinit ce que "inférence pas chère" peut vouloir dire pour des modèles de raisonnement. Si vLLM l'intègre vite, quelques acteurs cloud européens vont souffler.

RecherchePaper
1 source
Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
4MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic