Aller au contenu principal
xAI montre les difficultés d'exploiter de nombreux GPU en parallèle
InfrastructureThe Information AI6sem· 1 min de lecture

xAI montre les difficultés d'exploiter de nombreux GPU en parallèle

Source originale ↗·

xAI, la société d'intelligence artificielle d'Elon Musk, dispose d'environ 500 000 GPU Nvidia, l'une des plus grandes collections de puces serveur parmi les développeurs d'IA ayant rendu leurs données publiques. Pourtant, selon un mémo interne révélé par Business Insider, le taux de Model Flops Utilization (MFU) de xAI n'atteignait que 11 % ces dernières semaines, soit la proportion de puissance de calcul réellement exploitée sur l'ensemble des chips disponibles. Un score de 100 % représenterait une utilisation totale et théoriquement parfaite de l'infrastructure.

Ce chiffre est particulièrement frappant dans un secteur où les GPU Nvidia sont devenus une ressource rare et âprement disputée. Les développeurs d'IA se battent pour en obtenir, et subissent une pression intense pour en tirer le maximum. Un chercheur d'une entreprise concurrente interrogé sur le sujet a reconnu que dépasser 40 % d'utilisation restait difficile pour la plupart des acteurs du secteur, mais a qualifié le taux de 11 % d'« incroyablement bas ». Ce qui rend la situation encore plus surprenante, c'est que xAI est réputée pour configurer ses clusters GPU selon les recommandations officielles de Nvidia.

La racine du problème tient à la nature même de l'entraînement des modèles d'IA : une activité dite « en rafales », marquée par des pics soudains d'utilisation suivis de périodes creuses, le temps que les chercheurs analysent les résultats et décident de la prochaine étape. Ce schéma rend l'optimisation du taux d'utilisation structurellement difficile, contrairement à l'inférence, phase où les modèles sont déployés pour les utilisateurs finaux, qui génère une charge plus régulière et prévisible. La course aux GPU bat son plein dans toute l'industrie, mais l'écart entre les ressources accumulées et leur efficacité réelle soulève des questions sur la rentabilité de ces investissements massifs, à l'heure où les valorisations de l'IA reposent en partie sur la capacité à exploiter cette infrastructure.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix
1VentureBeat AI 

Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix

Les entreprises qui investissent massivement dans les GPU d'intelligence artificielle n'en utilisent en réalité que 5 % de leur capacité, selon le rapport 2026 de Cast AI sur l'optimisation Kubernetes, qui s'appuie sur des mesures de clusters en production réelle. Laurent Gil, cofondateur et président de Cast AI, suit cette dynamique depuis deux ans. Il estime qu'une gestion humaine raisonnable devrait atteindre environ 30 % d'utilisation, compte tenu des cycles jour/nuit et des week-ends. À 5 %, les entreprises exploitent leur infrastructure la plus coûteuse à un sixième de ce que produirait une approche sans effort particulier. Dans le même temps, AWS a discrètement relevé ses prix sur les GPU H200 réservés d'environ 15 % un samedi de janvier, sans annonce officielle, tandis que les fabricants de mémoire ont augmenté les tarifs de la HBM3e de 20 % pour 2026. C'est la première fois depuis le lancement d'EC2 par AWS en 2006 qu'un hyperscaler hausse ses prix GPU réservés plutôt que de les baisser. Ce paradoxe a des conséquences concrètes sur les budgets technologiques de milliers d'entreprises. L'hypothèse fondamentale qui sous-tend la plupart des projections de dépenses cloud, que la puissance de calcul devient moins chère chaque année, ne tient plus au sommet de la pile. Le marché s'est scindé en deux niveaux : côté commodity, les prix du H100 à la demande ont chuté de 7,57 dollars par GPU-heure en septembre 2025 à environ 3,93 dollars aujourd'hui, avec des fournisseurs comme Lambda Labs ou RunPod sous les 3 dollars. Mais côté frontier, la logique s'est inversée. Nvidia a reçu des commandes pour 2 millions de puces H200 pour 2026, contre un stock disponible de 700 000 unités. Les capacités d'assemblage avancé de TSMC, indispensables à chaque GPU équipé de HBM, sont réservées jusqu'à mi-2027 au moins. AMD a prévenu de ses propres hausses de prix pour 2026, et même les A100, dont le coût devait baisser à l'expiration des réservations triennales de 2023, repartent à la hausse. La mécanique qui explique ces 5 % d'utilisation tient à un processus d'achat dominé par la peur de manquer. Une entreprise rejoint une liste d'attente chez un hyperscaler, attend des semaines ou des mois, puis reçoit un appel : 36 GPU disponibles immédiatement, engagement d'un ou trois ans exigé, à prendre ou à laisser. La question n'est alors plus de savoir si les charges de travail justifient cette capacité, mais de ne pas perdre le créneau. Une fois les GPU obtenus, personne ne les rend : les récupérer prendrait des mois et aucune équipe ne veut être celle qui a renoncé à sa capacité. La flotte reste donc allumée, facturée à l'heure, utilisée ou non. Gil observe même des entreprises payer les tarifs à la demande, trois fois plus chers que les réservations annuelles, simplement parce que la souplesse paraît moins risquée que l'engagement. La pénurie nourrit la thésaurisation, et la thésaurisation entretient la pénurie.

UELes entreprises européennes utilisant des GPU cloud subissent les mêmes hausses de prix sur les H200 réservés et le HBM3e, alourdissant leurs budgets IA sans gain de performance.

InfrastructureOpinion
1 source
Mistral AI sécurise 830 millions de dollars en dette pour exploiter son premier centre de données en France
2Maddyness 

Mistral AI sécurise 830 millions de dollars en dette pour exploiter son premier centre de données en France

Mistral AI a finalisé un financement par dette de 830 millions de dollars destiné à l'exploitation de son premier centre de données souverain en France. Cette opération, distincte d'une levée de fonds en capital classique, permet à la startup parisienne fondée en 2023 de conserver sa structure actionnariale tout en mobilisant des ressources massives pour une infrastructure physique propre. Ce passage à l'hébergement en propre marque un tournant stratégique majeur : Mistral ne dépend plus uniquement des hyperscalers américains comme AWS ou Azure pour faire tourner ses modèles. Disposer d'un datacenter français signifie une maîtrise totale de la chaîne de traitement des données, un argument de poids auprès des clients institutionnels et des gouvernements européens soucieux de souveraineté numérique. Ce mouvement s'inscrit dans une course mondiale à la puissance de calcul où les acteurs de l'IA réalisent que le contrôle de l'infrastructure est aussi stratégique que les modèles eux-mêmes. Mistral, qui compte parmi ses clients la Commission européenne et plusieurs États membres, consolide ainsi sa position de champion européen face aux géants américains. L'opération pourrait également préfigurer une introduction en bourse ou un partenariat industriel à grande échelle dans les mois à venir.

UEMistral AI construit un datacenter souverain en France, réduisant la dépendance aux hyperscalers américains et offrant aux institutions publiques et gouvernements européens une alternative crédible pour le traitement souverain des données.

💬 C'est le move qu'on attendait depuis que Mistral a commencé à vendre aux gouvernements. Un datacenter souverain en France, c'est pas un bonus symbolique, c'est la condition pour décrocher les gros contrats institutionnels sans que personne te demande où tournent les données. Et 830 millions en dette plutôt qu'en capital, ça dit beaucoup sur leur ambition : ils préservent l'actionnariat pour ce qui vient après.

InfrastructureOpinion
1 source
Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU
3VentureBeat AI 

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU

Moins d'une semaine après avoir bouclé la plus grande introduction en bourse du secteur tech en 2026, Cerebras Systems a annoncé lundi qu'il fait tourner Kimi K2.6, un modèle open-weight de mille milliards de paramètres développé par la société pékinoise Moonshot AI, à près de 1 000 tokens par seconde pour ses clients entreprises. Le chiffre exact, vérifié de manière indépendante par la firme de benchmarking Artificial Analysis, s'établit à 981 tokens par seconde en sortie, soit 6,7 fois plus rapide que le meilleur fournisseur cloud sur GPU et 23 fois plus rapide que la médiane. Sur une requête d'assistance au code impliquant 10 000 tokens en entrée, Cerebras a livré la réponse complète en 5,6 secondes, contre 163,7 secondes sur l'endpoint officiel de Kimi, soit une amélioration d'un facteur 29. La société, basée à Sunnyvale et désormais valorisée 95 milliards de dollars après avoir levé 5,55 milliards lors de son IPO, signe ici son entrée en production sur les modèles de taille maximale, un palier qu'elle n'avait jamais encore franchi. L'enjeu dépasse la performance brute. Kimi K2.6 est l'un des premiers modèles open-weight que les entreprises peuvent crédiblement utiliser comme alternative aux API fermées d'Anthropic ou d'OpenAI, notamment pour les tâches de codage et d'agents autonomes qui représentent aujourd'hui les cas d'usage les plus rentables des grands modèles de langage. James Wang, directeur marketing produit de Cerebras, est direct : les clients sont motivés avant tout par le besoin d'une alternative à Anthropic, dont les modèles sont excellents mais coûteux et régulièrement saturés. Il cite l'exemple d'une application tombée en panne un week-end faute de capacité disponible sur l'API d'Anthropic, une mésaventure qui résonne fortement auprès des acheteurs en entreprise. La rapidité de Cerebras n'est donc pas qu'un argument marketing : dans les workflows agentiques, où chaque seconde d'attente se multiplie par des dizaines d'appels successifs, la vitesse d'inférence devient un avantage compétitif structurel. Kimi K2.6 a été publié le 20 avril par Moonshot AI, une startup fondée en 2023 par des anciens de l'université Tsinghua et considérée comme l'une des entreprises "AI Tiger" de Chine. Le modèle utilise une architecture Mixture-of-Experts avec 32 milliards de paramètres activés par token sur un total de 1 000 milliards, 384 experts dont 8 sélectionnés par passe, et une fenêtre de contexte de 256 000 tokens. Il occupe la première place sur SWE-Bench Pro avec un score de 58,6, dépassant Claude Opus 4.6 et égalant GPT-5.4. Le choix de ce modèle chinois comme vitrine d'un fabricant de puces américain soulève néanmoins une dimension géopolitique que l'article laisse en suspens : Cerebras joue ici à la fois la carte de la performance et celle de l'ouverture, dans un contexte de tensions croissantes autour des technologies d'IA entre les deux pays.

UELes entreprises européennes dépendantes de solutions cloud d'inférence LLM disposent d'une nouvelle alternative matérielle avec des vitesses vérifiées jusqu'à 6,7 fois supérieures aux meilleurs fournisseurs GPU, ce qui peut réduire les risques de saturation de capacité pour les workflows agentiques.

💬 981 tokens par seconde, vérifié par un tiers indépendant, sur un modèle à 1000 milliards de paramètres. Dans les workflows agentiques où chaque appel LLM en déclenche dix autres, c'est pas un argument marketing, c'est du cash économisé et des pannes évitées. Et le truc le plus savoureux, c'est qu'un fabricant de puces américain fraîchement introduit en bourse choisit un modèle chinois comme vitrine, et que l'article passe presque dessus comme si c'était un détail.

InfrastructureOpinion
1 source
Google et SpaceX explorent des data centers spatiaux en orbite pour l’IA
4Le Big Data 

Google et SpaceX explorent des data centers spatiaux en orbite pour l’IA

Google et SpaceX seraient en pourparlers avancés sur le déploiement de centres de données en orbite basse, destinés à héberger des charges de calcul dédiées à l'intelligence artificielle. Selon le Wall Street Journal, les deux groupes étudient un accord qui permettrait à Google d'utiliser les capacités de lancement de SpaceX pour placer progressivement des infrastructures informatiques dans l'espace. Cette initiative reste encore au stade exploratoire, sans confirmation officielle d'Elon Musk, mais elle s'inscrit dans un contexte où SpaceX prépare une introduction en bourse valorisée à près de 1 750 milliards de dollars, pariant sur la viabilité économique future de ces infrastructures orbitales. Google ne limiterait pas non plus ses discussions à SpaceX, en parallèle de discussions avec d'autres acteurs du secteur spatial, tout en avançant sur son projet Suncatcher, annoncé en 2018, dont les premiers prototypes de satellites sont attendus à partir de 2027. L'enjeu est considérable pour l'industrie tech. Les modèles d'IA générative réclament des volumes de calcul en croissance exponentielle, tandis que les data centers terrestres se heurtent à des limites de plus en plus contraignantes : consommation électrique massive, occupation foncière importante, et opposition croissante de riverains et d'élus dans plusieurs États américains. Des projets entiers ralentissent en raison d'inquiétudes autour de l'utilisation de l'eau, de l'empreinte carbone et de la pression sur les réseaux électriques locaux. Des infrastructures en orbite permettraient, en théorie, de contourner ces contraintes géographiques et réglementaires tout en ouvrant une nouvelle réserve de capacité de calcul décorrélée des tensions foncières terrestres. Elon Musk avance même que le coût d'exploitation de tels centres pourrait s'avérer inférieur à celui des data centers classiques, à mesure que les coûts de lancement continuent de baisser. Ce mouvement vers l'espace s'inscrit dans une recomposition plus large des alliances autour de l'IA et des infrastructures. Anthropic et SpaceX ont récemment signé un accord portant sur l'accès aux ressources de calcul du centre de données de xAI à Memphis, avec des perspectives de collaboration sur des projets spatiaux à plus long terme. SpaceX a par ailleurs renforcé son positionnement dans l'écosystème IA après le rachat de xAI en février 2026, transformant l'entreprise de lancement en acteur intégré de la chaîne de valeur de l'intelligence artificielle. Si les data centers orbitaux restent une vision à horizon de plusieurs années, la convergence entre les géants du cloud, les fournisseurs de fusées et les laboratoires d'IA dessine d'ores et déjà les contours d'une bataille pour le contrôle des infrastructures du calcul de demain.

UELa domination américaine sur les futures infrastructures orbitales accentue les enjeux de souveraineté numérique pour l'Europe, sans impact opérationnel direct à court terme.

💬 La contrainte des data centers terrestres, c'est réelle, et si tu suis l'actu US tu vois des projets ralentir partout, faute d'élec ou à cause des riverains. Du calcul en orbite basse, ça a du sens sur le fond, j'y crois. Mais le timing colle un peu trop bien avec l'IPO de SpaceX à 1 750 milliards pour pas se poser de questions.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic