Les modèles Anthropic tournent désormais sur…

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

47

1AWS ML Blog

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Amazon Web Services a rendu disponibles sur Amazon SageMaker AI les instances P6-B200, équipées de huit GPU NVIDIA Blackwell B200, pour l'entraînement de modèles de machine learning à grande échelle. Ces GPU de nouvelle génération embarquent 180 Go de mémoire HBM par puce (268 Go sur le B300), contre des capacités bien inférieures sur les générations précédentes, et s'interconnectent via NVLink 5 qui atteint 1,8 To/s de bande passante bidirectionnelle entre GPU. La configuration cible des modèles Transformer allant de 1 à 64 milliards de paramètres, entraînés en parallélisme de données fragmentées (FSDP de PyTorch) sur un nœud unique à huit GPU. L'accès à ces instances peut être réservé via le programme Flexible Training Plan d'AWS pour bénéficier d'une capacité prévisible et d'une gestion automatisée des ressources. Cette architecture modifie concrètement ce qui est réalisable dans l'entraînement de grands modèles. Jusqu'ici, les ingénieurs se heurtaient à trois contraintes classiques : des tailles de batch limitées par la mémoire GPU, des séquences tronquées pour éviter les erreurs out-of-memory, et un fractionnement du modèle sur plusieurs nœuds qui génère une surcharge réseau importante. Avec 180 Go par GPU, certains modèles qui nécessitaient auparavant plusieurs nœuds peuvent désormais tenir sur un seul nœud à huit GPU, ce qui réduit la latence de communication, accélère les cycles d'itération et diminue les coûts d'infrastructure. Des séquences plus longues deviennent viables pour les tâches de dépendances à longue portée, et le nombre d'étapes de synchronisation des gradients diminue avec des batchs plus grands, améliorant le débit global. NVIDIA Blackwell représente la cinquième génération de Tensor Cores de la marque, et son architecture dual-chip marque une rupture par rapport aux générations Ampere et Hopper. L'explosion de la taille des modèles ces trois dernières années, de GPT-3 à 175 milliards de paramètres jusqu'aux modèles actuels dépassant le trillion, a poussé les fournisseurs cloud et les fabricants de puces à repenser conjointement leurs offres. AWS et NVIDIA ont renforcé leur partenariat autour de SageMaker pour proposer une intégration clé en main qui abstrait la gestion de l'infrastructure. Les prochaines étapes pratiques pour les équipes ML consistent à calibrer le format de précision (FP8, BF16 ou FP16 selon la taille du modèle), ajuster le checkpointing d'activations pour équilibrer mémoire et calcul, et décider si la priorité est le débit, la réduction des communications inter-GPU ou la longueur de contexte. L'enjeu pour AWS est de capter une part croissante des budgets d'entraînement de modèles fondationnels, un marché où Google Cloud et Microsoft Azure jouent également des capacités GPU Blackwell.

InfrastructureActu

1 source

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

53

2Le Big Data

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion

1 source

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

41

3NVIDIA AI Blog

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

NVIDIA a dominé l'édition MLPerf Training 6.0, le benchmark industriel de référence pour évaluer les performances d'entraînement des modèles d'IA, en remportant chaque catégorie du classement. La plateforme Blackwell de l'entreprise a affiché les temps d'entraînement les plus rapides sur la totalité des sept benchmarks du test, dont deux nouvelles charges de travail ajoutées à cette édition : DeepSeek-V3 671B et GPT-OSS-20B, deux modèles de type mixture-of-experts (MoE). NVIDIA est également le seul acteur à avoir soumis des résultats sur l'ensemble des sept benchmarks. À grande échelle, la société a déployé un cluster de 8 192 GPU GB200 NVL72 pour entraîner le modèle DeepSeek-V3, la plus vaste soumission Blackwell jamais réalisée dans MLPerf. Les partenaires cloud ont également brillé : CoreWeave a atteint la cible de qualité pour DeepSeek-V3 671B en seulement 2,02 minutes à 8 192 GPU avec des systèmes GB300 NVL72, tandis que Microsoft Azure a entraîné Llama 3.1 405B à la même échelle en 7,07 minutes, établissant un record sur ce benchmark. Ces résultats ont une portée directe sur la compétitivité des équipes qui construisent des modèles frontier. Raccourcir un cycle d'entraînement de plusieurs heures permet d'itérer plus vite, de réduire les coûts d'infrastructure et de lancer des produits commerciaux plus tôt. Le système GB300 NVL72 s'est montré jusqu'à 1,6 fois plus rapide que son prédécesseur GB200 NVL72 à scale identique, grâce à une densité de calcul accrue via le format numérique NVFP4, une capacité mémoire élargie et une enveloppe de puissance plus haute permettant au GPU de maintenir ses performances en continu. La technologie NVLink de cinquième génération, qui connecte les 72 GPU d'un même rack en un unique pool unifié de calcul et de mémoire, s'avère déterminante pour les architectures MoE, où les tokens doivent être acheminés dynamiquement vers différents sous-réseaux experts répartis sur de nombreux GPU. MLPerf est un programme de benchmarks indépendant, soumis à une révision par les pairs, qui sert de référence commune à l'ensemble de l'industrie pour comparer les performances d'entraînement de manière reproductible. NVIDIA y participe depuis ses débuts pour valider publiquement ses avancées matérielles. Avec Blackwell, l'entreprise consolide son leadership dans un moment clé : les modèles MoE, popularisés notamment par DeepSeek et Mistral, s'imposent comme l'architecture dominante pour les grands modèles de langage, car ils permettent de réduire le coût d'inférence tout en maintenant un haut niveau de performance. La prochaine génération de systèmes Blackwell Ultra et les progrès sur l'entraînement en précision réduite (NVFP4) indiquent que NVIDIA entend rester l'infrastructure de référence pour quiconque cherche à entraîner des modèles à la frontière des capacités actuelles.

UELes équipes européennes entraînant des modèles frontier en cloud bénéficieront indirectement de ces gains de performance matérielle, mais aucune entreprise ou institution française ou européenne n'est directement impliquée dans ces résultats.

InfrastructureActu

1 source

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

50

4VentureBeat AI

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Cirrascale Cloud Services a annoncé lors du Google Cloud Next 2026 à Las Vegas un accord élargi avec Google Cloud pour déployer le modèle Gemini en mode entièrement déconnecté, sur des serveurs physiques isolés d'internet. Cirrascale devient ainsi le premier fournisseur de cloud spécialisé à proposer le modèle phare de Google sous forme d'appliance privée, installée soit dans les centres de données de Cirrascale, soit directement dans les locaux du client. Le système repose sur un serveur certifié Google, fabriqué par Dell, équipé de huit GPU Nvidia et protégé par des mécanismes de calcul confidentiel. Une préversion est disponible immédiatement, avec une disponibilité générale attendue en juin ou juillet 2026. Dave Driggers, PDG de Cirrascale, a insisté sur un point clé : il s'agit du modèle Gemini complet, sans aucune restriction ni version allégée, déployé dans un environnement où les données d'entrée comme de sortie restent entièrement sous le contrôle du client. Fait notable sur le plan technique, les poids du modèle résident uniquement en mémoire volatile : dès que l'alimentation est coupée, le modèle disparaît sans laisser de trace persistante. Cette annonce répond à un problème structurel qui bloque depuis des années les secteurs régulés comme la finance, la santé, la défense et les administrations publiques. Ces organisations devaient jusqu'ici choisir entre accéder aux modèles les plus puissants via des API cloud publiques, au risque d'exposer leurs données sensibles à l'infrastructure d'un tiers, ou se contenter de modèles open source moins performants hébergés en interne. Le déploiement Cirrascale entend supprimer ce compromis. Driggers décrit l'escalade du problème de confiance : après les inquiétudes sur les données propriétaires confiées aux hyperscalers, les entreprises ont pris conscience que les prompts et les réponses générées étaient également récupérés par ces mêmes plateformes pour alimenter leurs propres systèmes, ce qui a rendu la demande de souveraineté totale incontournable. Cette évolution s'inscrit dans un mouvement plus large de migration des modèles d'IA frontier hors des centres de données des grands hyperscalers, vers les infrastructures propres des clients, ce qui représente une rupture avec la logique cloud dominante de la dernière décennie. Driggers distingue explicitement cette offre des déploiements on-premises proposés par Microsoft Azure avec les modèles OpenAI ou par AWS Outposts : dans ces cas, les modèles restent liés à l'infrastructure de leurs éditeurs. Ici, Google ne possède pas le matériel, et son modèle fonctionne en dehors de tout réseau Google. Pour le géant de Mountain View, accepter ce niveau de délégation sur son modèle le plus avancé traduit une stratégie commerciale claire : conquérir les marchés réglementés qui lui étaient jusqu'ici fermés, quitte à renoncer au contrôle direct de l'inférence.

UECe mode de déploiement air-gap répond directement aux exigences du RGPD et de l'AI Act en matière de souveraineté des données, ouvrant potentiellement Gemini aux administrations publiques, établissements de santé et institutions financières européennes soumis à des contraintes strictes de localisation et d'isolation des données.

💬 Le truc des poids uniquement en mémoire volatile, c'est la partie que je trouve la plus maligne. Parce que le blocage dans les secteurs régulés c'était pas juste "mes données sortent du réseau", c'était aussi "quelqu'un peut extraire ou copier le modèle", et là, coupe l'alimentation, ça disparaît. Google accepte de perdre le contrôle de l'inférence de son meilleur modèle pour aller chercher des marchés qui lui étaient fermés depuis des années. Ça, c'est un vrai mouvement.

InfrastructureOpinion

1 source

Les modèles Anthropic tournent désormais sur NVIDIA GB300 Blackwell Ultra dans Azure

À lire aussi

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant