Aller au contenu principal
Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0
InfrastructureNVIDIA AI Blog3h· 2 min de lecture

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

Source originale ↗·

NVIDIA a dominé l'édition MLPerf Training 6.0, le benchmark industriel de référence pour évaluer les performances d'entraînement des modèles d'IA, en remportant chaque catégorie du classement. La plateforme Blackwell de l'entreprise a affiché les temps d'entraînement les plus rapides sur la totalité des sept benchmarks du test, dont deux nouvelles charges de travail ajoutées à cette édition : DeepSeek-V3 671B et GPT-OSS-20B, deux modèles de type mixture-of-experts (MoE). NVIDIA est également le seul acteur à avoir soumis des résultats sur l'ensemble des sept benchmarks. À grande échelle, la société a déployé un cluster de 8 192 GPU GB200 NVL72 pour entraîner le modèle DeepSeek-V3, la plus vaste soumission Blackwell jamais réalisée dans MLPerf. Les partenaires cloud ont également brillé : CoreWeave a atteint la cible de qualité pour DeepSeek-V3 671B en seulement 2,02 minutes à 8 192 GPU avec des systèmes GB300 NVL72, tandis que Microsoft Azure a entraîné Llama 3.1 405B à la même échelle en 7,07 minutes, établissant un record sur ce benchmark.

Ces résultats ont une portée directe sur la compétitivité des équipes qui construisent des modèles frontier. Raccourcir un cycle d'entraînement de plusieurs heures permet d'itérer plus vite, de réduire les coûts d'infrastructure et de lancer des produits commerciaux plus tôt. Le système GB300 NVL72 s'est montré jusqu'à 1,6 fois plus rapide que son prédécesseur GB200 NVL72 à scale identique, grâce à une densité de calcul accrue via le format numérique NVFP4, une capacité mémoire élargie et une enveloppe de puissance plus haute permettant au GPU de maintenir ses performances en continu. La technologie NVLink de cinquième génération, qui connecte les 72 GPU d'un même rack en un unique pool unifié de calcul et de mémoire, s'avère déterminante pour les architectures MoE, où les tokens doivent être acheminés dynamiquement vers différents sous-réseaux experts répartis sur de nombreux GPU.

MLPerf est un programme de benchmarks indépendant, soumis à une révision par les pairs, qui sert de référence commune à l'ensemble de l'industrie pour comparer les performances d'entraînement de manière reproductible. NVIDIA y participe depuis ses débuts pour valider publiquement ses avancées matérielles. Avec Blackwell, l'entreprise consolide son leadership dans un moment clé : les modèles MoE, popularisés notamment par DeepSeek et Mistral, s'imposent comme l'architecture dominante pour les grands modèles de langage, car ils permettent de réduire le coût d'inférence tout en maintenant un haut niveau de performance. La prochaine génération de systèmes Blackwell Ultra et les progrès sur l'entraînement en précision réduite (NVFP4) indiquent que NVIDIA entend rester l'infrastructure de référence pour quiconque cherche à entraîner des modèles à la frontière des capacités actuelles.

Impact France/UE

Les équipes européennes entraînant des modèles frontier en cloud bénéficieront indirectement de ces gains de performance matérielle, mais aucune entreprise ou institution française ou européenne n'est directement impliquée dans ces résultats.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
1Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA
2NVIDIA AI Blog 

NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA

Artificial Analysis a publié AgentPerf, le premier benchmark sectoriel conçu spécifiquement pour évaluer les infrastructures d'IA agentique. Dans ce premier tour de résultats, la plateforme NVIDIA GB300 NVL72, basée sur l'architecture Blackwell Ultra, s'impose comme le système le plus performant : elle peut faire tourner jusqu'à 20 fois plus d'agents par mégawatt que l'ancienne génération HGX H200 (Hopper), quel que soit le seuil de qualité de service retenu (20 ou 60 tokens par seconde par agent). Le modèle de référence utilisé pour ce test est DeepSeek V4 Pro, un grand modèle de type mixture-of-experts représentatif des LLM qui propulsent aujourd'hui les agents les plus capables. La distinction entre IA conversationnelle et IA agentique est au coeur de cette initiative. Un chatbot classique réalise un seul appel LLM par échange : c'est un sprint. Un agent, lui, enchaîne des dizaines voire des centaines d'appels LLM entrelacés d'appels à des outils externes, compilation de code, recherche en base de données, navigation web, en transmettant à chaque étape un contexte de plus en plus long. La complexité n'est pas additive, elle est multiplicative. Les benchmarks d'inférence existants ne mesuraient qu'un seul appel LLM isolé et n'avaient pas été conçus pour capturer cette réalité. Pour une entreprise qui déploie des agents à grande échelle, les métriques pertinentes sont la réactivité des agents, le nombre d'instances simultanées supportées, et surtout le volume de travail utile produit par dollar et par watt investis. La performance du GB300 NVL72 repose sur une co-conception poussée de l'ensemble de la pile logicielle et matérielle. Le système interconnecte 72 GPU en une seule unité rack, ce qui permet aux grands modèles MoE comme DeepSeek V4 Pro de distribuer leur exécution efficacement. Les noyaux CUDA chevauchent communication et calcul pour absorber la latence de coordination entre experts. TensorRT-LLM sépare le traitement des entrées de la génération des sorties afin d'optimiser chaque phase indépendamment. AgentPerf lui-même est construit à partir de trajectoires réelles d'agents de codage opérant sur des dépôts publics couvrant plus de 12 langages de programmation, avec des longueurs de séquences, des délais d'appels d'outils et des patterns représentatifs de la production. Ce benchmark arrive à un moment où l'industrie bascule massivement vers des architectures agentiques, et où le choix d'infrastructure devient un avantage concurrentiel direct pour quiconque déploie ces systèmes à l'échelle.

UELes entreprises et cloud providers européens déployant des agents IA à grande échelle peuvent utiliser ce benchmark pour orienter leurs décisions d'achat de matériel.

💬 Vingt fois plus d'agents par mégawatt, c'est pas anodin. Ce qui m'intéresse surtout dans ce benchmark, c'est qu'il mesure enfin ce qui compte vraiment : pas un seul appel LLM en isolation, mais des chaînes complètes avec des dizaines d'appels et du contexte qui s'accumule à chaque étape. Reste à voir si ça se confirme sur des tâches moins lisses que du code sur des dépôts publics.

InfrastructureActu
1 source
Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA
3The Information AI 

Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA

L'explosion de la demande en infrastructure IA a déclenché l'un des cycles d'investissement les plus colossaux de l'histoire moderne. Jensen Huang, PDG de Nvidia, estime qu'un gigawatt de capacité de calcul peut coûter jusqu'à 50 milliards de dollars. McKinsey projette que la demande mondiale en centres de données pourrait atteindre 156 gigawatts d'ici 2030, ce qui porterait l'investissement total nécessaire à près de 7 000 milliards de dollars. Lors d'un récent panel organisé par The Information, trois dirigeants du secteur ont dressé un constat convergent : ce n'est pas le manque de GPU qui freine le déploiement de l'IA, mais bien le capital. Charles Fisher, directeur financier de Lambda, Marc Boroditsky, directeur commercial de Nebius, et Nick Robbins, vice-président développement chez CoreWeave, ont tous pointé la même tension : les GPU sont disponibles aujourd'hui, mais les infrastructures nécessaires pour les déployer à grande échelle prennent des années à financer et à construire. Ce goulot d'étranglement financier tient en partie à des idées reçues persistantes dans le monde bancaire. Les prêteurs rechignent à financer des actifs dont la durée de vie estimée est de six ans seulement, contre plusieurs décennies pour les réseaux câblés. Ils supposent également que la demande se concentre sur une poignée de géants du cloud, ignorant la réalité du marché. Lambda compte plus de 10 000 clients sur son cloud public, représentant environ un tiers de ses revenus, avec des comportements d'abonnement très fidèles. Chez CoreWeave, Robbins souligne que les anciens GPU Nvidia V100 et A100 continuent de générer des rendements solides bien au-delà de leur durée de vie théorique. Les contrats fermes avec des clients solvables restent le principal levier pour débloquer des financements : Nebius a ainsi conclu un accord plurimilliardaire avec Meta Platforms qui garantit l'absorption des GPU non vendus, permettant à Nebius d'utiliser la solidité financière de Meta comme caution implicite. Le vrai défi n'est donc pas tant financier que logistique. Fisher parle d'un problème de "chorégraphie" : la demande des clients se matérialise bien plus vite que la construction des centres de données ne peut suivre. Nebius répond à cette contrainte en menant tous les chantiers simultanément, sécurisant les terrains, générant la demande et levant le capital en parallèle. Au-delà des hyperscalers comme Microsoft, Google ou Amazon, qui captent l'essentiel de l'attention médiatique, la prochaine vague de croissance proviendrait de startups IA en forte croissance et de l'adoption enterprise. Des entreprises comme Cursor ou Harvey sont citées comme signaux avant-coureurs d'un marché qui dépasse largement les seuls géants technologiques, et dont le financement structuré reste encore à inventer.

InfrastructureOpinion
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
4AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic