Aller au contenu principal
Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA
InfrastructureThe Information AI2sem

Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA

Résumé IASource uniqueImpact UE
Source originale ↗·

Microsoft et d'autres grands fournisseurs de cloud redirigent leurs stocks de GPU Nvidia vers leurs équipes internes ou leurs clients enterprise les plus importants, privant les startups d'IA d'un accès fiable aux serveurs dont elles ont besoin. Cette pénurie touche des entreprises pourtant solidement financées, soutenues par des fonds majeurs comme Sequoia Capital, Founders Fund, General Catalyst et Andreessen Horowitz. La situation est suffisamment préoccupante pour qu'Hemant Taneja, directeur général de General Catalyst, ait envoyé un sondage à ses fondateurs en portefeuille pour évaluer leur capacité à accéder aux ressources de calcul.

Cette tension sur l'offre a des conséquences directes et immédiates : les startups qui ne parviennent pas à obtenir des GPU auprès des fournisseurs cloud traditionnels se retrouvent contraintes de se tourner vers des alternatives plus coûteuses ou moins stables. Pour des entreprises dont le modèle repose entièrement sur la puissance de calcul, entraînement de modèles, inférence, recherche, une rupture d'approvisionnement peut ralentir le développement de produits et éroder l'avantage concurrentiel acquis grâce aux levées de fonds.

Cette situation reflète une tension structurelle dans l'écosystème de l'IA : les hyperscalers comme Microsoft, Google ou Amazon ont massivement investi dans leurs propres capacités d'IA et traitent désormais leurs besoins internes en priorité. Face à une demande mondiale de GPU Nvidia qui dépasse largement l'offre disponible, les petits acteurs se retrouvent en bas de la liste d'attente, dans un marché où l'accès au calcul est devenu aussi stratégique que le capital lui-même.

Impact France/UE

Les startups IA européennes, également dépendantes des hyperscalers américains pour l'accès aux GPU Nvidia, sont exposées à la même tension structurelle qui freine leur développement face aux priorités internes des fournisseurs cloud.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Information AI 

Microsoft freine ses investissements dans l'IA et cherche maintenant à rattraper son retard

Microsoft se retrouve aujourd'hui en retard dans la course aux infrastructures d'intelligence artificielle, après une série de décisions qui lui ont coûté une avance considérable sur ses concurrents. Au début du boom de l'IA, l'équipe infrastructure de l'entreprise avait constitué un portefeuille de sites de data centers représentant 9 gigawatts de capacité électrique, l'équivalent de neuf réacteurs nucléaires, ce qui faisait l'envie du secteur. Mais fin 2024 et début 2025, face à des dépenses d'investissement en infrastructure qui menaçaient de dépasser les 80 milliards de dollars budgétés pour l'exercice fiscal, la directrice financière Amy Hood a mis le frein. L'équipe énergie de Microsoft a dû abandonner ou suspendre plusieurs projets de data centers en cours, aussi bien aux États-Unis qu'en Europe. En octobre dernier, Hood reconnaissait publiquement que le service cloud Azure manquait de capacité. "Je pensais que nous allions rattraper notre retard. Ce n'est pas le cas", déclarait-elle lors d'un appel aux investisseurs. Microsoft restera "limité en capacité" au moins jusqu'à la fin de son exercice fiscal en juin 2026. Les conséquences de ce retrait ont été immédiates et concrètes pour la position compétitive de Microsoft. Google, Oracle et d'autres acteurs ont profité du vide laissé pour avancer leurs propres projets et sécuriser des raccordements au réseau électrique que Microsoft avait abandonnés. Oracle a récupéré une part importante de la capacité disponible pour son data center en construction à Port Washington, dans le Wisconsin, destiné à accueillir les besoins d'OpenAI. Google a accéléré le développement de deux campus en Indiana pendant que Microsoft était en mode attente. Plusieurs membres de l'équipe énergie ont depuis quitté l'entreprise, dont le directeur énergie Bobby Hollis, dont le départ a été annoncé le 31 mars 2026. Pour combler l'écart, Microsoft a signé des accords avec des partenaires tiers, dont les acteurs spécialisés Nscale et Crusoe, ainsi qu'avec le géant énergétique Chevron et le fonds Engine No. 1, en misant sur une production électrique privée hors réseau alimentée au gaz naturel, notamment au Texas et en Virginie-Occidentale. Cette situation s'inscrit dans un contexte de tension structurelle sur le réseau électrique américain, où obtenir un raccordement peut prendre plusieurs années. Microsoft n'est pas en mesure de retrouver sa place dans les files d'attente des opérateurs réseau qu'elle a libérées. Certains observateurs, dont des responsables d'infrastructure familiers des projets, estiment que la discipline budgétaire imposée par Hood pourrait néanmoins s'avérer judicieuse à long terme : en transférant une partie du risque de construction à ses partenaires, Microsoft préserve sa flexibilité pour acquérir des sites à des conditions plus favorables dans un marché qui commence à se rationaliser. Alistair Speirs, directeur général de l'infrastructure Azure, a défendu une "approche fondée sur la flexibilité et les options", en fonction des signaux de demande à court et long terme.

UEMicrosoft a suspendu plusieurs projets de data centers en Europe, réduisant la capacité cloud Azure disponible pour les entreprises européennes et retardant l'accès à l'infrastructure IA dans la région.

💬 9 gigawatts en portefeuille, et ils ont lâché les raccordements réseau au pire moment. Dans un marché où se connecter au réseau électrique prend parfois des années, tu ne reviens pas dans la file une fois que t'en es sorti, peu importe le budget que tu remets sur la table ensuite. Google et Oracle n'ont pas eu besoin de se battre, ils ont juste ramassé ce que Microsoft avait laissé.

InfrastructureActu
1 source
OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA
2The Decoder 

OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA

OpenAI a annoncé la mise au point du protocole réseau MRC en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA. Ce protocole open source permet de transmettre des données simultanément sur des centaines de chemins entre les GPU, là où les architectures traditionnelles n'en empruntent qu'un à la fois. Là où les infrastructures classiques nécessitent trois ou quatre couches de commutateurs réseau pour relier des dizaines de milliers de puces, MRC n'en requiert que deux pour interconnecter plus de 100 000 GPU. Le protocole est déjà opérationnel sur le supercalculateur Stargate d'OpenAI. Cette simplification de l'architecture réseau a des conséquences directes sur les coûts et la consommation d'énergie des centres de données d'IA. Supprimer une à deux couches de commutateurs représente une économie substantielle en matériel, en câblage et en électricité, à une époque où les dépenses en infrastructure IA atteignent des dizaines de milliards de dollars par an. Pour les opérateurs de supercalculateurs, cette approche permet d'atteindre des échelles inédites tout en maîtrisant la facture énergétique, un enjeu majeur alors que la consommation des data centers est de plus en plus scrutée. Le projet Stargate, dont les investissements annoncés dépassent 500 milliards de dollars sur plusieurs années, illustre l'ambition d'OpenAI de bâtir sa propre infrastructure de calcul à très grande échelle. La création d'un protocole open source, développé en consortium avec les principaux fabricants de semi-conducteurs et Microsoft, signale une volonté de standardiser les communications entre GPU à l'échelle des supercalculateurs modernes. En ouvrant MRC, OpenAI mise sur une adoption large qui pourrait en faire un standard de fait pour l'industrie.

UELe protocole MRC pourrait réduire la consommation énergétique des supercalculateurs IA, un enjeu directement encadré par la réglementation européenne sur l'efficacité énergétique des centres de données.

💬 Enlever une à deux couches de commutateurs sur 100 000 GPU, ça veut dire des centaines de millions en matériel et en électricité économisés, pas un détail à cette échelle. Ce qui me frappe, c'est qu'OpenAI ouvre le protocole en consortium avec AMD, Broadcom, Intel et NVIDIA, plutôt que de le garder propriétaire. La stratégie est lisible : faire de MRC un standard de fait avant que quelqu'un d'autre s'y colle.

InfrastructureOpinion
1 source
Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts
3The Decoder 

Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts

Nvidia a établi de nouveaux records lors du dernier cycle de MLPerf Inference, le benchmark de référence de l'industrie pour mesurer les performances des systèmes d'inférence IA. L'entreprise a mobilisé jusqu'à 288 GPU pour atteindre ces résultats, se positionnant en tête des classements généraux. Cette édition marque une première : l'introduction de modèles multimodaux et vidéo dans les catégories évaluées, élargissant ainsi le périmètre d'un benchmark jusqu'ici centré sur les modèles texte et image. AMD et Intel ont également participé à ce cycle, mais en mettant en avant des métriques différentes de celles privilégiées par Nvidia, ce qui rend les comparaisons directes particulièrement difficiles. Chaque acteur choisit les indicateurs qui valorisent le mieux ses propres architectures matérielles, une stratégie qui brouille la lecture des résultats pour les entreprises cherchant à choisir leur infrastructure d'inférence. Pour les équipes IA en production, cette divergence méthodologique complique les décisions d'achat et soulève des questions sur la neutralité du benchmark lui-même. MLPerf, géré par MLCommons, est devenu l'étalon industriel incontournable pour comparer les performances des puces et systèmes IA en conditions réelles d'inférence. L'ajout de modèles multimodaux et vidéo reflète l'évolution rapide des cas d'usage en entreprise, où les assistants IA traitent désormais images, vidéos et texte simultanément. La domination persistante de Nvidia sur ces classements renforce sa position sur le marché des infrastructures IA, tandis qu'AMD et Intel cherchent à se différencier sur des segments où leurs architectures offrent un meilleur rapport performance-coût.

UELes équipes IA européennes en charge d'achats d'infrastructure d'inférence doivent composer avec des benchmarks MLPerf dont la lecture est brouillée par des métriques divergentes entre Nvidia, AMD et Intel, rendant les comparaisons objectives difficiles.

InfrastructureActu
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
4Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour