Aller au contenu principal
Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
RechercheMarkTechPost6sem· 2 min de lecture

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Source originale ↗·

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU.

L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle.

L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial
1MarkTechPost 

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial

Les chercheurs de NVIDIA ont publié SpatialClaw, un framework d'agent pour le raisonnement spatial qui ne nécessite aucun réentraînement des modèles. Testé sur 20 benchmarks couvrant cinq catégories de tâches visuelles (image unique, multi-vues, vidéo, 4D et compréhension vidéo générale), le système atteint 59,9 % de précision moyenne, soit 11,2 points de plus que SpaceTools, le précédent agent spatial de référence. SpatialClaw fonctionne comme une boucle agentique enveloppant un noyau Python persistant, pré-chargé avec les images d'entrée et un ensemble de primitives de perception. Deux outils sont au cœur du système : Reconstruct, qui s'appuie sur Depth Anything 3 pour produire cartes de profondeur, géométrie caméra et nuages de points, et SAM3, qui exploite SAM 3 pour générer des masques vidéo ou image à partir de texte ou de coordonnées. Le système a été évalué sur six architectures de modèles allant de 26 à 397 milliards de paramètres, issues des familles Qwen3 et Gemma4. Le vrai apport de SpatialClaw est moins dans ses outils que dans la manière dont l'agent les utilise. NVIDIA a comparé trois interfaces d'action sur les mêmes outils et le même prompt : code en passe unique (+1,8 point sur la baseline sans outil), appels structurés via schéma JSON (+3,3 points), et l'interface de SpatialClaw où le code lui-même est l'interface d'action (+6,5 points). La différence tient à la capacité d'inspection intermédiaire : plutôt que de soumettre un programme complet sans retour, l'agent observe les résultats partiels et révise sa stratégie en cours de route. Sur un exemple concret, mesurer la distance minimale entre un radiateur et une porte, l'agent corrige son premier calcul de centroïde en basculant vers scipy.spatial.KDTree, obtenant 0,9439 m contre une vérité terrain à 0,9 m. Les gains les plus importants apparaissent sur les tâches dynamiques : +17,6 points sur DSI-Bench et +15,3 sur MindCube avec le backbone Gemma4-31B. Le raisonnement spatial reste l'un des talons d'Achille des grands modèles vision-langage : localiser précisément des objets, estimer leurs relations géométriques et suivre leurs trajectoires dans un espace 3D dépasse les capacités actuelles de la plupart des VLM, quelle que soit leur taille. Les approches existantes comme VADAR ou pySpatial utilisaient toutes du code en passe unique ou des appels d'outils structurés, avec des résultats limités à respectivement 40,5 % et 47,8 % de moyenne. En traitant le code comme interface d'action native plutôt que comme sortie figée, NVIDIA propose une solution qui s'applique à n'importe quel modèle sans modifier ses poids, ce qui facilite l'adoption. Le framework est documenté sur le site du projet et représente un signal fort pour les applications robotiques, les véhicules autonomes et les systèmes d'assistance visuelle, où la précision géométrique est non négociable.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. NVIDIA avec SpatialClaw, c'est une évolution concrète dans le raisonnement spatial. Le truc, c'est qu'ils ont su tirer parti du code comme interface d'action directe, pas juste comme sortie figée. Cela signifie que les agents peuvent s'ajuster en temps réel, corriger et améliorer leurs calculs grâce à une inspection intermédiaire. Sur des tâches dynamiques, les gains sont substantiels, ce qui montre qu'on touche quelque chose de pertinent pour les robots, les voitures autonomes et les systèmes d'aide visuelle où la précision est primordiale. C'est pas juste un ajout de performance, c'est une nouvelle manière de travailler avec l'IA.

RecherchePaper
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
2MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
3VentureBeat AI 

De l'entraînement à l'inférence : comment optimiser votre budget de calcul IA de bout en bout

Des chercheurs des universités du Wisconsin-Madison et de Stanford ont publié un cadre théorique appelé Train-to-Test (T²) scaling laws, qui remet en question les règles d'entraînement des grands modèles de langage en vigueur depuis des années. Leur approche démontre qu'il est plus efficace, sur le plan computationnel, d'entraîner des modèles nettement plus petits sur des volumes de données bien plus importants que ce que préconisent les standards actuels, puis d'utiliser les ressources ainsi économisées pour générer plusieurs échantillons de raisonnement au moment de l'inférence. La règle Chinchilla, référence dominante du secteur depuis 2022, recommande environ 20 tokens d'entraînement par paramètre de modèle. Les concepteurs de familles comme Llama, Gemma ou Qwen s'en écartent déjà délibérément en surinformant leurs modèles compacts, mais sans cadre rigoureux pour calibrer ce surplus. Le framework T² comble précisément ce vide en traitant comme une équation unifiée trois variables jusqu'ici étudiées séparément : la taille du modèle (N), le volume de tokens d'entraînement (D) et le nombre d'échantillons générés à l'inférence (k). L'impact concret est significatif pour les entreprises qui développent leurs propres modèles ou déploient des workflows agentiques complexes. Comme l'explique Nicholas Roberts, co-auteur de l'article, la pile d'inférence se grippe lorsque chaque appel individuel est coûteux, ce qui arrive systématiquement avec de grands modèles nécessitant un échantillonnage répété. Avec des modèles plus compacts mais surinformés, ce même échantillonnage multiple devient accessible à une fraction du coût. Pour les développeurs d'applications d'IA en entreprise, cela signifie qu'il n'est pas nécessaire de s'appuyer sur des modèles frontières onéreux pour obtenir des performances élevées sur des tâches complexes : des modèles plus petits, correctement entraînés et utilisés avec des stratégies d'inférence adaptées, peuvent surpasser des modèles bien plus larges tout en maintenant des coûts par requête maîtrisables. Ce travail s'inscrit dans une tension croissante entre deux écoles de pensée dans la recherche sur les LLM : celle qui mise sur l'augmentation continue de la taille des modèles à l'entraînement, et celle qui explore le potentiel du calcul au moment de l'inférence. Les lois d'échelle de préentraînement et de test-time scaling avaient jusqu'ici été développées en silo, malgré leur interdépendance fondamentale : la taille et la durée d'entraînement d'un modèle déterminent directement la qualité et le coût de chacun de ses échantillons d'inférence. Le framework T² introduit une passerelle mathématique entre ces deux domaines, notamment en reliant la métrique de perte continue utilisée à l'entraînement aux métriques de performance réelles utilisées au déploiement, comme le pass@k. Les suites probables incluent une adoption progressive par les équipes qui construisent des agents autonomes multi-étapes, pour lesquels le coût d'inférence est souvent le principal facteur limitant.

RecherchePaper
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
4MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic