Aller au contenu principal
Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA
InfrastructureThe Information AI6sem

Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA

Résumé IASource uniqueImpact UE
Source originale ↗·

Microsoft et d'autres grands fournisseurs de cloud redirigent leurs stocks de GPU Nvidia vers leurs équipes internes ou leurs clients enterprise les plus importants, privant les startups d'IA d'un accès fiable aux serveurs dont elles ont besoin. Cette pénurie touche des entreprises pourtant solidement financées, soutenues par des fonds majeurs comme Sequoia Capital, Founders Fund, General Catalyst et Andreessen Horowitz. La situation est suffisamment préoccupante pour qu'Hemant Taneja, directeur général de General Catalyst, ait envoyé un sondage à ses fondateurs en portefeuille pour évaluer leur capacité à accéder aux ressources de calcul.

Cette tension sur l'offre a des conséquences directes et immédiates : les startups qui ne parviennent pas à obtenir des GPU auprès des fournisseurs cloud traditionnels se retrouvent contraintes de se tourner vers des alternatives plus coûteuses ou moins stables. Pour des entreprises dont le modèle repose entièrement sur la puissance de calcul, entraînement de modèles, inférence, recherche, une rupture d'approvisionnement peut ralentir le développement de produits et éroder l'avantage concurrentiel acquis grâce aux levées de fonds.

Cette situation reflète une tension structurelle dans l'écosystème de l'IA : les hyperscalers comme Microsoft, Google ou Amazon ont massivement investi dans leurs propres capacités d'IA et traitent désormais leurs besoins internes en priorité. Face à une demande mondiale de GPU Nvidia qui dépasse largement l'offre disponible, les petits acteurs se retrouvent en bas de la liste d'attente, dans un marché où l'accès au calcul est devenu aussi stratégique que le capital lui-même.

Impact France/UE

Les startups IA européennes, également dépendantes des hyperscalers américains pour l'accès aux GPU Nvidia, sont exposées à la même tension structurelle qui freine leur développement face aux priorités internes des fournisseurs cloud.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud
1VentureBeat AI 

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion
1 source
NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud
2NVIDIA AI Blog 

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu
1 source
Les fournisseurs d'inférence connaissent-ils un essor ?
3The Information AI 

Les fournisseurs d'inférence connaissent-ils un essor ?

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes. Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence. Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

UELa montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

InfrastructureOpinion
1 source
4The Information AI 

Microsoft freine ses investissements dans l'IA et cherche maintenant à rattraper son retard

Microsoft se retrouve aujourd'hui en retard dans la course aux infrastructures d'intelligence artificielle, après une série de décisions qui lui ont coûté une avance considérable sur ses concurrents. Au début du boom de l'IA, l'équipe infrastructure de l'entreprise avait constitué un portefeuille de sites de data centers représentant 9 gigawatts de capacité électrique, l'équivalent de neuf réacteurs nucléaires, ce qui faisait l'envie du secteur. Mais fin 2024 et début 2025, face à des dépenses d'investissement en infrastructure qui menaçaient de dépasser les 80 milliards de dollars budgétés pour l'exercice fiscal, la directrice financière Amy Hood a mis le frein. L'équipe énergie de Microsoft a dû abandonner ou suspendre plusieurs projets de data centers en cours, aussi bien aux États-Unis qu'en Europe. En octobre dernier, Hood reconnaissait publiquement que le service cloud Azure manquait de capacité. "Je pensais que nous allions rattraper notre retard. Ce n'est pas le cas", déclarait-elle lors d'un appel aux investisseurs. Microsoft restera "limité en capacité" au moins jusqu'à la fin de son exercice fiscal en juin 2026. Les conséquences de ce retrait ont été immédiates et concrètes pour la position compétitive de Microsoft. Google, Oracle et d'autres acteurs ont profité du vide laissé pour avancer leurs propres projets et sécuriser des raccordements au réseau électrique que Microsoft avait abandonnés. Oracle a récupéré une part importante de la capacité disponible pour son data center en construction à Port Washington, dans le Wisconsin, destiné à accueillir les besoins d'OpenAI. Google a accéléré le développement de deux campus en Indiana pendant que Microsoft était en mode attente. Plusieurs membres de l'équipe énergie ont depuis quitté l'entreprise, dont le directeur énergie Bobby Hollis, dont le départ a été annoncé le 31 mars 2026. Pour combler l'écart, Microsoft a signé des accords avec des partenaires tiers, dont les acteurs spécialisés Nscale et Crusoe, ainsi qu'avec le géant énergétique Chevron et le fonds Engine No. 1, en misant sur une production électrique privée hors réseau alimentée au gaz naturel, notamment au Texas et en Virginie-Occidentale. Cette situation s'inscrit dans un contexte de tension structurelle sur le réseau électrique américain, où obtenir un raccordement peut prendre plusieurs années. Microsoft n'est pas en mesure de retrouver sa place dans les files d'attente des opérateurs réseau qu'elle a libérées. Certains observateurs, dont des responsables d'infrastructure familiers des projets, estiment que la discipline budgétaire imposée par Hood pourrait néanmoins s'avérer judicieuse à long terme : en transférant une partie du risque de construction à ses partenaires, Microsoft préserve sa flexibilité pour acquérir des sites à des conditions plus favorables dans un marché qui commence à se rationaliser. Alistair Speirs, directeur général de l'infrastructure Azure, a défendu une "approche fondée sur la flexibilité et les options", en fonction des signaux de demande à court et long terme.

UEMicrosoft a suspendu plusieurs projets de data centers en Europe, réduisant la capacité cloud Azure disponible pour les entreprises européennes et retardant l'accès à l'infrastructure IA dans la région.

💬 9 gigawatts en portefeuille, et ils ont lâché les raccordements réseau au pire moment. Dans un marché où se connecter au réseau électrique prend parfois des années, tu ne reviens pas dans la file une fois que t'en es sorti, peu importe le budget que tu remets sur la table ensuite. Google et Oracle n'ont pas eu besoin de se battre, ils ont juste ramassé ce que Microsoft avait laissé.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour