Aller au contenu principal
Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs
InfrastructureIEEE Spectrum AI6sem· 2 min de lecture

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Source originale ↗·

Le dernier modèle Llama de Meta atteint les 2 000 milliards de paramètres, un chiffre vertigineux qui illustre la course effrénée au gigantisme dans l'industrie de l'IA. Mais des chercheurs de l'université de Stanford ont mis au point une puce expérimentale qui pourrait changer radicalement l'équation énergétique de ces modèles colossaux. Leur approche repose sur un phénomène connu sous le nom de sparsité : dans la plupart des grands modèles de langage, une majorité des paramètres (poids et activations) sont égaux à zéro, ou si proches de zéro qu'ils peuvent être traités comme tels sans perte de précision. L'équipe Stanford a conçu le premier accélérateur matériel capable de traiter efficacement tous les types de charges de travail sparses, en partant de zéro sur la pile complète : hardware, firmware bas niveau et logiciel applicatif. Résultat mesuré : la puce consomme en moyenne soixante-dix fois moins d'énergie qu'un CPU classique et effectue les calculs huit fois plus vite.

L'enjeu est considérable pour l'ensemble de l'industrie. Les modèles d'IA actuels exigent des ressources computationnelles et énergétiques croissantes, avec un impact carbone qui devient difficile à ignorer. Or les GPU et CPU dominants aujourd'hui n'exploitent pas naturellement la sparsité : ils multiplient et additionnent les zéros comme n'importe quel autre nombre, gaspillant du temps et de l'énergie. Sauter ces opérations inutiles et ne stocker que les paramètres non nuls permettrait, en théorie, de faire tourner des modèles de très grande taille avec une fraction de l'infrastructure actuelle, sans sacrifier leurs performances. Pour les entreprises qui déploient des modèles en production, les économies potentielles sur les coûts d'inférence seraient substantielles.

Il y a deux ans, Cerebras avait déjà démontré que l'on peut mettre à zéro jusqu'à 70 à 80 % des paramètres d'un grand modèle de langage sans perte de précision mesurable, en testant cette approche sur le Llama 7B de Meta, avec des implications étendues à des modèles comme ChatGPT ou Claude. La sparsité peut aussi être naturellement présente dans certaines architectures, comme les modèles de recommandation ou les graphes de réseaux sociaux, où la plupart des connexions possibles n'existent pas. Ce que l'équipe Stanford apporte maintenant, c'est la preuve matérielle que toute la chaîne d'exécution peut être repensée pour exploiter cette propriété. La prochaine étape sera de savoir si l'industrie, dominée par Nvidia et ses GPU denses, adoptera cette direction ou si la sparsité restera un sujet de recherche académique face à la brutalité des roadmaps de puissance brute.

💬 L'analyse de Mathieu

70x moins d'énergie, c'est pas un détail. Stanford prouve qu'on peut reconstruire toute la stack matérielle autour de la sparsité et obtenir des résultats qui feraient pâlir n'importe quel data center. La vraie question, c'est si Nvidia va laisser ce genre de truc décoller, ou si leurs roadmaps de puissance brute vont continuer à dicter la direction de l'industrie pendant les 10 prochaines années.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027
1Le Big Data 

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027

Nvidia a officiellement confirmé le lancement de son prochain GPU phare, le Rubin Ultra, prévu pour 2027. Successeur du Blackwell Ultra, cette puce repose sur une architecture en chiplets de type MCM (Multi-Chip Module) assemblant quatre dies gravés en nœud N2 chez TSMC, pour un total d'environ 336 milliards de transistors. Elle s'intègre dans la plateforme Vera, un écosystème complet où le GPU collabore avec le processeur Vera, doté de 88 cœurs, via une interconnexion NVLink-C2C sans latence. Le tout est relié par le nouveau commutateur NVLink 6, conçu pour des vitesses de transfert inédites à l'échelle des racks de serveurs. La mémoire intégrée atteint 1 To de HBM4e répartis sur 12 stacks, avec une bande passante annoncée à 22 To/s, soit un bond considérable par rapport aux générations précédentes. Ce niveau de performance change concrètement la donne pour les entreprises qui entraînent ou déploient des grands modèles de langage. Avec 1 To de mémoire embarquée sur une seule puce, il devient possible de charger des modèles entiers sans recourir à des échanges lents entre composants, l'un des goulots d'étranglement structurels des infrastructures actuelles. L'architecture en chiplets apporte par ailleurs une modularité absente des puces monolithiques : la montée en charge des clusters de serveurs devient plus fluide, et chaque unité de calcul peut fonctionner en coordination étroite avec les autres. Pour les opérateurs de data centers et les hyperscalers, le Rubin Ultra ne représente pas un simple upgrade de performance, mais une refonte de ce que l'on appelle désormais les "AI Factories", ces infrastructures entièrement conçues autour des besoins du calcul IA. Nvidia accélère son calendrier de manière visible : le Rubin Ultra arrivera en 2027, mais son architecture est déjà documentée et ses partenariats hardware (TSMC N2, HBM4e) sont scellés, signalant une volonté de garder plusieurs générations d'avance sur ses concurrents AMD et Intel, ainsi que sur les puces maison développées par Google (TPU), Amazon (Trainium) et Microsoft (Maia). La transition vers les chiplets, longtemps réservée aux CPU, marque un tournant pour les GPU de datacenter. L'intégration verticale de la plateforme Vera, qui lie hardware et software de façon indissociable, rappelle la stratégie d'Apple avec ses puces M, mais appliquée à l'échelle des supercalculateurs industriels. Les entreprises qui visent ces infrastructures devront consentir des investissements massifs, mais la dépendance à l'écosystème Nvidia, déjà forte via CUDA, ne fera que s'approfondir avec cette nouvelle génération.

UELes opérateurs européens de data centers et les hyperscalers devront planifier dès maintenant des investissements massifs pour 2027, tout en s'enfermant davantage dans l'écosystème Nvidia via CUDA et la plateforme Vera.

InfrastructureOpinion
1 source
L'entrainement decentralise peut aider a resoudre les problemes energetiques de l'IA
2IEEE Spectrum AI 

L'entrainement decentralise peut aider a resoudre les problemes energetiques de l'IA

L'intelligence artificielle consomme des quantités colossales d'énergie, et cette réalité pousse chercheurs et entreprises à repenser en profondeur la manière dont les modèles sont entraînés. Plutôt que de continuer à concentrer le calcul dans d'immenses centres de données centralisés, une approche émerge : la décentralisation de l'entraînement, qui distribue le travail sur un réseau de nœuds indépendants. Des acteurs comme Nvidia, avec son infrastructure Spectrum-XGS Ethernet conçue pour relier des clusters GPU géographiquement séparés, ou Cisco avec son routeur 8223 destiné à connecter des clusters d'IA dispersés, ont déjà commercialisé des solutions dans ce sens. Plus radical encore, Akash Network propose une place de marché pair-à-pair baptisée "l'Airbnb des centres de données" : des entreprises ou particuliers disposant de GPU sous-utilisés les louent à ceux qui en ont besoin, sans construction d'infrastructure supplémentaire. Sur le plan logiciel, l'apprentissage fédéré permet à plusieurs organisations d'entraîner localement un modèle partagé, en n'échangeant que les poids du modèle avec un serveur central qui les agrège, sans jamais centraliser les données brutes. L'enjeu est considérable : l'entraînement représente l'une des phases les plus énergivores du cycle de vie d'un modèle d'IA, et les émissions carbone liées aux grands modèles de langage ne cessent d'augmenter. La décentralisation offre une réponse concrète en permettant au calcul d'aller là où l'énergie existe déjà, qu'il s'agisse d'un serveur dormant dans un laboratoire de recherche ou d'un ordinateur alimenté par des panneaux solaires. Cela évite de surcharger les réseaux électriques en construisant toujours plus de centres de données, et ouvre la voie à un modèle économique inédit où de petits GPU, jusqu'ici négligés, deviennent des ressources valorisables. Comme le souligne Greg Osuri, cofondateur d'Akash Network, le monde passe progressivement d'une dépendance exclusive aux GPU les plus puissants vers une utilisation combinée de matériels plus modestes mais abondants. Cette évolution s'inscrit dans un contexte où les grandes entreprises technologiques, faute d'avancées matérielles suffisamment rapides pour suivre la croissance des modèles, explorent déjà la mutualisation de plusieurs centres de données. L'approche décentralisée soulève néanmoins des défis techniques sérieux : les échanges constants de poids de modèles génèrent des coûts de communication élevés, et la moindre défaillance d'un nœud peut obliger à recommencer un lot d'entraînement entier. Pour y répondre, des chercheurs de Google DeepMind ont développé DiLoCo, un algorithme d'optimisation à faible communication conçu spécifiquement pour l'entraînement distribué. Les solutions nucléaires envisagées par les géants du secteur restent à plusieurs années de distance ; la décentralisation, elle, est déjà opérationnelle.

UELa décentralisation de l'entraînement pourrait alléger la pression sur les réseaux électriques européens, déjà sous tension face à la prolifération des centres de données.

InfrastructureOpinion
1 source
Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours
3MarkTechPost 

Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours

Le Transformer Engine de NVIDIA s'impose progressivement comme un outil de référence pour accélérer l'entraînement des modèles de deep learning en entreprise. Un tutoriel technique publié récemment propose une implémentation complète en Python, couvrant l'installation des composants, la vérification de la compatibilité GPU et CUDA, ainsi que la comparaison directe entre un pipeline PyTorch standard et un pipeline optimisé via le Transformer Engine. La démonstration construit deux réseaux neuronaux (enseignant et élève), les entraîne en parallèle, mesure leurs performances respectives en termes de vitesse d'exécution et de consommation mémoire, et produit des visualisations comparatives. Le tutoriel prend soin de gérer les échecs d'installation silencieusement, de manière à ce que le notebook reste exécutable même lorsque l'extension native ne peut pas être compilée, via un mode de repli automatique. Ce type d'outillage répond à un besoin concret des équipes d'IA cherchant à réduire les coûts d'entraînement sans changer d'architecture. Le Transformer Engine exploite la précision FP8 (8 bits flottants), disponible sur les GPU NVIDIA à partir de l'architecture Hopper (H100), pour effectuer les calculs matriciels les plus lourds avec une empreinte mémoire réduite et un débit augmenté, tout en maintenant la précision finale du modèle grâce à la gestion automatique des facteurs d'échelle. En pratique, cela peut se traduire par des gains de vitesse significatifs sur les passes avant et arrière des transformers, réduisant directement le temps et le coût des runs d'entraînement à grande échelle. L'approche intéresse aussi bien les laboratoires de recherche que les équipes MLOps en production. NVIDIA a développé le Transformer Engine en réponse à la montée en puissance des modèles de langage et de vision nécessitant des milliards de paramètres, pour lesquels la précision FP32 ou même FP16 devient un goulot d'étranglement. Introduit officiellement avec les GPU H100 et le framework TransformerEngine open source, il s'intègre à PyTorch et JAX via des couches drop-in comme te.Linear et te.TransformerLayer. La complexité d'installation, notamment la nécessité d'un compilateur NVCC et des headers cuDNN présents sur la machine, freine encore son adoption hors des environnements cloud spécialisés. Le tutoriel aborde précisément ce point de friction en proposant une détection automatique de l'environnement et un fallback propre, ce qui devrait abaisser la barrière d'entrée pour les équipes souhaitant expérimenter avant de migrer leurs pipelines de production vers cette technologie.

InfrastructureTuto
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
4MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic