InfrastructureNVIDIA AI Blog · 16 juin 2026, 18:00· 2 min de lecture

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

NVIDIA a dominé l'édition MLPerf Training 6.0, le benchmark industriel de référence pour évaluer les performances d'entraînement des modèles d'IA, en remportant chaque catégorie du classement. La plateforme Blackwell de l'entreprise a affiché les temps d'entraînement les plus rapides sur la totalité des sept benchmarks du test, dont deux nouvelles charges de travail ajoutées à cette édition : DeepSeek-V3 671B et GPT-OSS-20B, deux modèles de type mixture-of-experts (MoE). NVIDIA est également le seul acteur à avoir soumis des résultats sur l'ensemble des sept benchmarks. À grande échelle, la société a déployé un cluster de 8 192 GPU GB200 NVL72 pour entraîner le modèle DeepSeek-V3, la plus vaste soumission Blackwell jamais réalisée dans MLPerf. Les partenaires cloud ont également brillé : CoreWeave a atteint la cible de qualité pour DeepSeek-V3 671B en seulement 2,02 minutes à 8 192 GPU avec des systèmes GB300 NVL72, tandis que Microsoft Azure a entraîné Llama 3.1 405B à la même échelle en 7,07 minutes, établissant un record sur ce benchmark.

Ces résultats ont une portée directe sur la compétitivité des équipes qui construisent des modèles frontier. Raccourcir un cycle d'entraînement de plusieurs heures permet d'itérer plus vite, de réduire les coûts d'infrastructure et de lancer des produits commerciaux plus tôt. Le système GB300 NVL72 s'est montré jusqu'à 1,6 fois plus rapide que son prédécesseur GB200 NVL72 à scale identique, grâce à une densité de calcul accrue via le format numérique NVFP4, une capacité mémoire élargie et une enveloppe de puissance plus haute permettant au GPU de maintenir ses performances en continu. La technologie NVLink de cinquième génération, qui connecte les 72 GPU d'un même rack en un unique pool unifié de calcul et de mémoire, s'avère déterminante pour les architectures MoE, où les tokens doivent être acheminés dynamiquement vers différents sous-réseaux experts répartis sur de nombreux GPU.

MLPerf est un programme de benchmarks indépendant, soumis à une révision par les pairs, qui sert de référence commune à l'ensemble de l'industrie pour comparer les performances d'entraînement de manière reproductible. NVIDIA y participe depuis ses débuts pour valider publiquement ses avancées matérielles. Avec Blackwell, l'entreprise consolide son leadership dans un moment clé : les modèles MoE, popularisés notamment par DeepSeek et Mistral, s'imposent comme l'architecture dominante pour les grands modèles de langage, car ils permettent de réduire le coût d'inférence tout en maintenant un haut niveau de performance. La prochaine génération de systèmes Blackwell Ultra et les progrès sur l'entraînement en précision réduite (NVFP4) indiquent que NVIDIA entend rester l'infrastructure de référence pour quiconque cherche à entraîner des modèles à la frontière des capacités actuelles.

Impact France/UE

Les équipes européennes entraînant des modèles frontier en cloud bénéficieront indirectement de ces gains de performance matérielle, mais aucune entreprise ou institution française ou européenne n'est directement impliquée dans ces résultats.

Dans nos dossiers

Blackwell NVIDIA DeepSeek Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion

1 source

2NVIDIA AI Blog

NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA

Artificial Analysis a publié AgentPerf, le premier benchmark sectoriel conçu spécifiquement pour évaluer les infrastructures d'IA agentique. Dans ce premier tour de résultats, la plateforme NVIDIA GB300 NVL72, basée sur l'architecture Blackwell Ultra, s'impose comme le système le plus performant : elle peut faire tourner jusqu'à 20 fois plus d'agents par mégawatt que l'ancienne génération HGX H200 (Hopper), quel que soit le seuil de qualité de service retenu (20 ou 60 tokens par seconde par agent). Le modèle de référence utilisé pour ce test est DeepSeek V4 Pro, un grand modèle de type mixture-of-experts représentatif des LLM qui propulsent aujourd'hui les agents les plus capables. La distinction entre IA conversationnelle et IA agentique est au coeur de cette initiative. Un chatbot classique réalise un seul appel LLM par échange : c'est un sprint. Un agent, lui, enchaîne des dizaines voire des centaines d'appels LLM entrelacés d'appels à des outils externes, compilation de code, recherche en base de données, navigation web, en transmettant à chaque étape un contexte de plus en plus long. La complexité n'est pas additive, elle est multiplicative. Les benchmarks d'inférence existants ne mesuraient qu'un seul appel LLM isolé et n'avaient pas été conçus pour capturer cette réalité. Pour une entreprise qui déploie des agents à grande échelle, les métriques pertinentes sont la réactivité des agents, le nombre d'instances simultanées supportées, et surtout le volume de travail utile produit par dollar et par watt investis. La performance du GB300 NVL72 repose sur une co-conception poussée de l'ensemble de la pile logicielle et matérielle. Le système interconnecte 72 GPU en une seule unité rack, ce qui permet aux grands modèles MoE comme DeepSeek V4 Pro de distribuer leur exécution efficacement. Les noyaux CUDA chevauchent communication et calcul pour absorber la latence de coordination entre experts. TensorRT-LLM sépare le traitement des entrées de la génération des sorties afin d'optimiser chaque phase indépendamment. AgentPerf lui-même est construit à partir de trajectoires réelles d'agents de codage opérant sur des dépôts publics couvrant plus de 12 langages de programmation, avec des longueurs de séquences, des délais d'appels d'outils et des patterns représentatifs de la production. Ce benchmark arrive à un moment où l'industrie bascule massivement vers des architectures agentiques, et où le choix d'infrastructure devient un avantage concurrentiel direct pour quiconque déploie ces systèmes à l'échelle.

UELes entreprises et cloud providers européens déployant des agents IA à grande échelle peuvent utiliser ce benchmark pour orienter leurs décisions d'achat de matériel.

💬 Vingt fois plus d'agents par mégawatt, c'est pas anodin. Ce qui m'intéresse surtout dans ce benchmark, c'est qu'il mesure enfin ce qui compte vraiment : pas un seul appel LLM en isolation, mais des chaînes complètes avec des dizaines d'appels et du contexte qui s'accumule à chaque étape. Reste à voir si ça se confirme sur des tâches moins lisses que du code sur des dépôts publics.

InfrastructureActu

1 source

3NVIDIA AI Blog

Les modèles Anthropic tournent désormais sur NVIDIA GB300 Blackwell Ultra dans Azure

Les modèles Claude d'Anthropic sont désormais disponibles en accès général sur Microsoft Azure via Microsoft Foundry, avec une infrastructure propulsée par les GPU NVIDIA GB300 Blackwell Ultra. Ces systèmes reposent sur des configurations NVL72 couplées au réseau InfiniBand Quantum-X800, ce qui représente une montée en puissance significative pour les entreprises qui souhaitent déployer des agents IA autonomes sur le cloud Azure. Ce lancement s'inscrit dans la continuité d'un partenariat tripartite annoncé en novembre 2025 entre Microsoft, NVIDIA et Anthropic, qui visait à élargir l'accès entreprise aux modèles Claude sur des infrastructures accélérées. Concrètement, cette disponibilité générale change la donne pour les organisations qui construisent des systèmes multi-agents complexes. Les GPU Blackwell Ultra offrent des performances d'inférence nettement supérieures, ce qui réduit le coût total de possession et rend économiquement viable le déploiement d'agents spécialisés opérant en parallèle sur différents domaines métiers. NVIDIA et Anthropic travaillent également à intégrer les outils NVIDIA directement dans la pile Anthropic, permettant d'enrichir les agents Claude de compétences sectorielles précises via les "NVIDIA Verified Agent Skills". Ces agents peuvent ainsi être déployés comme une couche opérationnelle centrale au sein d'une organisation. Sur le plan de la gouvernance, NVIDIA propose un cadre de référence baptisé Secure Agent Workspace Reference Design, qui permet de faire tourner des agents autonomes dans un environnement contrôlé où l'identité, les accès réseau, les credentials et les politiques d'exécution sont gérés au niveau de l'infrastructure. Cette approche répond à l'une des principales préoccupations des directions informatiques face aux agents IA : le contrôle et la traçabilité. La convergence entre les grands modèles de langage d'Anthropic, la puissance de calcul de NVIDIA et l'écosystème cloud de Microsoft dessine un modèle d'intégration qui pourrait devenir une référence pour les déploiements IA en entreprise au cours des prochains mois.

UELes entreprises européennes utilisant Microsoft Azure peuvent désormais déployer les modèles Claude sur des GPU Blackwell Ultra, ce qui améliore les performances d'inférence et réduit les coûts pour les déploiements d'agents IA en entreprise dans le cloud.

InfrastructureActu

1 source

4AWS ML Blog

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Amazon Web Services a rendu disponibles sur Amazon SageMaker AI les instances P6-B200, équipées de huit GPU NVIDIA Blackwell B200, pour l'entraînement de modèles de machine learning à grande échelle. Ces GPU de nouvelle génération embarquent 180 Go de mémoire HBM par puce (268 Go sur le B300), contre des capacités bien inférieures sur les générations précédentes, et s'interconnectent via NVLink 5 qui atteint 1,8 To/s de bande passante bidirectionnelle entre GPU. La configuration cible des modèles Transformer allant de 1 à 64 milliards de paramètres, entraînés en parallélisme de données fragmentées (FSDP de PyTorch) sur un nœud unique à huit GPU. L'accès à ces instances peut être réservé via le programme Flexible Training Plan d'AWS pour bénéficier d'une capacité prévisible et d'une gestion automatisée des ressources. Cette architecture modifie concrètement ce qui est réalisable dans l'entraînement de grands modèles. Jusqu'ici, les ingénieurs se heurtaient à trois contraintes classiques : des tailles de batch limitées par la mémoire GPU, des séquences tronquées pour éviter les erreurs out-of-memory, et un fractionnement du modèle sur plusieurs nœuds qui génère une surcharge réseau importante. Avec 180 Go par GPU, certains modèles qui nécessitaient auparavant plusieurs nœuds peuvent désormais tenir sur un seul nœud à huit GPU, ce qui réduit la latence de communication, accélère les cycles d'itération et diminue les coûts d'infrastructure. Des séquences plus longues deviennent viables pour les tâches de dépendances à longue portée, et le nombre d'étapes de synchronisation des gradients diminue avec des batchs plus grands, améliorant le débit global. NVIDIA Blackwell représente la cinquième génération de Tensor Cores de la marque, et son architecture dual-chip marque une rupture par rapport aux générations Ampere et Hopper. L'explosion de la taille des modèles ces trois dernières années, de GPT-3 à 175 milliards de paramètres jusqu'aux modèles actuels dépassant le trillion, a poussé les fournisseurs cloud et les fabricants de puces à repenser conjointement leurs offres. AWS et NVIDIA ont renforcé leur partenariat autour de SageMaker pour proposer une intégration clé en main qui abstrait la gestion de l'infrastructure. Les prochaines étapes pratiques pour les équipes ML consistent à calibrer le format de précision (FP8, BF16 ou FP16 selon la taille du modèle), ajuster le checkpointing d'activations pour équilibrer mémoire et calcul, et décider si la priorité est le débit, la réduction des communications inter-GPU ou la longueur de contexte. L'enjeu pour AWS est de capter une part croissante des budgets d'entraînement de modèles fondationnels, un marché où Google Cloud et Microsoft Azure jouent également des capacités GPU Blackwell.

InfrastructureActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic