Aller au contenu principal
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
InfrastructureMarkTechPost6sem· 2 min de lecture

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Source originale ↗·

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement.

Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides.

La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs
1IEEE Spectrum AI 

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Le dernier modèle Llama de Meta atteint les 2 000 milliards de paramètres, un chiffre vertigineux qui illustre la course effrénée au gigantisme dans l'industrie de l'IA. Mais des chercheurs de l'université de Stanford ont mis au point une puce expérimentale qui pourrait changer radicalement l'équation énergétique de ces modèles colossaux. Leur approche repose sur un phénomène connu sous le nom de sparsité : dans la plupart des grands modèles de langage, une majorité des paramètres (poids et activations) sont égaux à zéro, ou si proches de zéro qu'ils peuvent être traités comme tels sans perte de précision. L'équipe Stanford a conçu le premier accélérateur matériel capable de traiter efficacement tous les types de charges de travail sparses, en partant de zéro sur la pile complète : hardware, firmware bas niveau et logiciel applicatif. Résultat mesuré : la puce consomme en moyenne soixante-dix fois moins d'énergie qu'un CPU classique et effectue les calculs huit fois plus vite. L'enjeu est considérable pour l'ensemble de l'industrie. Les modèles d'IA actuels exigent des ressources computationnelles et énergétiques croissantes, avec un impact carbone qui devient difficile à ignorer. Or les GPU et CPU dominants aujourd'hui n'exploitent pas naturellement la sparsité : ils multiplient et additionnent les zéros comme n'importe quel autre nombre, gaspillant du temps et de l'énergie. Sauter ces opérations inutiles et ne stocker que les paramètres non nuls permettrait, en théorie, de faire tourner des modèles de très grande taille avec une fraction de l'infrastructure actuelle, sans sacrifier leurs performances. Pour les entreprises qui déploient des modèles en production, les économies potentielles sur les coûts d'inférence seraient substantielles. Il y a deux ans, Cerebras avait déjà démontré que l'on peut mettre à zéro jusqu'à 70 à 80 % des paramètres d'un grand modèle de langage sans perte de précision mesurable, en testant cette approche sur le Llama 7B de Meta, avec des implications étendues à des modèles comme ChatGPT ou Claude. La sparsité peut aussi être naturellement présente dans certaines architectures, comme les modèles de recommandation ou les graphes de réseaux sociaux, où la plupart des connexions possibles n'existent pas. Ce que l'équipe Stanford apporte maintenant, c'est la preuve matérielle que toute la chaîne d'exécution peut être repensée pour exploiter cette propriété. La prochaine étape sera de savoir si l'industrie, dominée par Nvidia et ses GPU denses, adoptera cette direction ou si la sparsité restera un sujet de recherche académique face à la brutalité des roadmaps de puissance brute.

💬 70x moins d'énergie, c'est pas un détail. Stanford prouve qu'on peut reconstruire toute la stack matérielle autour de la sparsité et obtenir des résultats qui feraient pâlir n'importe quel data center. La vraie question, c'est si Nvidia va laisser ce genre de truc décoller, ou si leurs roadmaps de puissance brute vont continuer à dicter la direction de l'industrie pendant les 10 prochaines années.

InfrastructureOpinion
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
2MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source
Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement
3Meta Engineering ML 

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Meta a présenté KernelEvolve, un système d'optimisation de kernels piloté par intelligence artificielle, développé en interne pour accélérer ses modèles de publicité et d'IA générative. Intégré à l'agent Ranking Engineer Agent, KernelEvolve automatise la création et l'optimisation de kernels — ces programmes bas niveau qui traduisent les opérations de haut niveau d'un modèle en instructions spécifiques à chaque puce. Le système cible une infrastructure hétérogène composée de GPU NVIDIA, de GPU AMD, de CPU classiques et des puces MTIA, les accélérateurs personnalisés de Meta. Les résultats publiés sont substantiels : plus de 60 % d'amélioration du débit d'inférence pour le modèle publicitaire Andromeda sur GPU NVIDIA, et plus de 25 % de gain en débit d'entraînement sur les puces MTIA. Des travaux qui auraient normalement demandé plusieurs semaines à des ingénieurs spécialisés ont été accomplis en quelques heures. L'article associé sera présenté au 53e International Symposium on Computer Architecture (ISCA) 2026. L'enjeu est direct et massif : Meta sert chaque jour des milliards d'expériences alimentées par l'IA, des recommandations personnalisées aux assistants génératifs. Chaque requête d'entraînement ou d'inférence repose sur une couche de kernels hautement optimisés, et à mesure que les modèles gagnent en complexité et que le parc matériel se diversifie, le nombre de configurations possibles explose — atteignant des milliers de combinaisons selon le hardware, l'architecture du modèle et le type d'opérateur. L'optimisation manuelle par des experts ne peut plus suivre ce rythme, créant un goulot d'étranglement critique qui freine l'adoption de nouveaux matériels et ralentit les cycles d'itération des modèles. KernelEvolve résout ce problème en traitant l'optimisation comme une recherche automatisée : un environnement d'évaluation dédié teste chaque kernel candidat, renvoie les diagnostics au LLM, et pilote une exploration continue sur des centaines d'alternatives — dépassant les performances des kernels écrits à la main par des experts humains. Cette initiative s'inscrit dans une tendance de fond chez les grandes plateformes technologiques : déléguer des tâches d'ingénierie de bas niveau à des agents IA pour absorber la complexité croissante des infrastructures de calcul. Meta fait face à la même contrainte que Google, Microsoft ou Amazon — accélérer sans cesse les modèles tout en maîtrisant les coûts de calcul sur un parc matériel qui ne cesse de se diversifier. KernelEvolve génère des kernels dans des langages aussi bien de haut niveau comme Triton ou CuteDSL que de bas niveau comme CUDA, HIP ou MTIA C++, ce qui lui confère une portabilité rare. À terme, ce type d'agent pourrait devenir standard dans l'industrie, réduisant drastiquement le besoin d'ingénieurs spécialisés en optimisation matérielle et accélérant la mise en production de nouvelles architectures de modèles sur des puces encore inconnues.

InfrastructureActu
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
4Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic