Aller au contenu principal
Les locataires de GPU jouent à la loterie du silicium
InfrastructureIEEE Spectrum AI7sem· 2 min de lecture

Les locataires de GPU jouent à la loterie du silicium

Source originale ↗·

Des chercheurs du College of William & Mary, du Jefferson Lab et de la société Silicon Data ont publié une étude révélant une variabilité surprenante dans les performances des GPU loués sur le cloud, un phénomène connu sous le nom de "silicon lottery". Pour mesurer l'ampleur du problème, ils ont exécuté 6 800 instances de leur benchmark maison, SiliconMark, sur 3 500 GPU sélectionnés aléatoirement chez 11 fournisseurs de cloud. Les puces testées couvrent 11 modèles Nvidia, du plus courant au plus avancé, le H200 SXM. Les résultats sont frappants : les performances en calcul virgule flottante 16 bits des 259 GPU H100 PCIe varient jusqu'à 34,5 %, tandis que la bande passante mémoire des 253 H200 SXM présente des écarts allant jusqu'à 38 %. Carmen Li, fondatrice et PDG de Silicon Data, résume l'enjeu : une puce plus chère et plus récente peut, dans certains cas, délivrer moins de performances qu'un modèle plus ancien.

Ces écarts ont des conséquences financières directes pour les entreprises et les équipes de recherche qui louent du temps de calcul GPU pour entraîner ou faire tourner des modèles de langage. Si un client paie un tarif premium pour accéder à un H100 ou un H200, il n'a aucune garantie que l'instance qu'il reçoit correspond aux spécifications annoncées. À grande échelle, une différence de performance de 30 à 40 % représente des heures de calcul supplémentaires, des coûts gonflés et des délais allongés. La pratique actuelle de louer des GPU comme une ressource homogène et interchangeable ne reflète pas la réalité physique des puces, et les fournisseurs cloud n'offrent généralement aucune transparence sur la qualité individuelle des instances proposées.

Le phénomène de la "silicon lottery" était déjà documenté depuis au moins 2022, quand des chercheurs de l'Université du Wisconsin avaient constaté son impact sur les superordinateurs dépendant de GPU. Mais son ampleur dans le cloud computing grand public n'avait jamais été mesurée à cette échelle. Les causes sont multiples : variation dans les procédés de fabrication des puces, différences de configuration côté opérateurs, systèmes de refroidissement hétérogènes et historique d'utilisation des GPU. L'analyse de Silicon Data pointe toutefois les défauts de fabrication comme principal responsable. Pour se protéger, Jason Cornick, responsable infrastructure chez Silicon Data, recommande une approche pragmatique : benchmarker systématiquement chaque instance louée avec un outil comme SiliconMark avant de lancer des charges de travail intensives, afin de vérifier que les performances réelles correspondent bien à ce qui est facturé.

Impact France/UE

Les équipes de recherche et entreprises IA en France et en Europe qui louent des GPU sur le cloud subissent potentiellement des écarts de performance de 30 à 40 % à tarif égal, alourdissant directement leurs coûts de calcul et leurs délais d'entraînement de modèles.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1NVIDIA AI Blog 

NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026

NVIDIA et ses partenaires industriels investissent Hannover Messe 2026, le salon phare de l'industrie manufacturière qui se tient du 20 au 24 avril à Hanovre, en Allemagne, pour y présenter ce qu'ils considèrent comme la prochaine révolution de la production : l'usine pilotée par l'intelligence artificielle. Au programme, des démonstrations concrètes couvrant l'informatique accélérée, la simulation physique en temps réel, les agents autonomes et les robots humanoïdes opérant en environnement industriel. Parmi les temps forts, l'annonce de l'Industrial AI Cloud, l'un des plus grands centres d'IA d'Europe, construit en Allemagne par Deutsche Telekom sur infrastructure NVIDIA. Des géants comme SAP, Siemens, ABB, Dassault Systèmes, Cadence ou encore Synopsys y participent, aux côtés d'acteurs spécialisés comme Agile Robots, Wandelbots et PhysicsX. EDAG, prestataire indépendant d'ingénierie, a par ailleurs annoncé le déploiement de sa plateforme de métavers industriel "metys" sur ce cloud souverain, ciblant l'automobile et l'ingénierie lourde. L'enjeu est considérable : l'industrie manufacturière mondiale fait face à une pression simultanée sur les cycles de conception, les coûts opérationnels et la disponibilité de main-d'œuvre qualifiée. L'IA n'est plus une option expérimentale mais un levier de compétitivité immédiat. Les jumeaux numériques à l'échelle d'une usine entière, construits sur les bibliothèques Omniverse de NVIDIA et le standard ouvert OpenUSD, permettent désormais de simuler, tester et optimiser des lignes de production en continu, sans interruption physique. ABB, par exemple, intègre ces outils dans sa suite Genix pour analyser la performance des équipements et accélérer la recherche de causes de pannes via des agents IA. Pour les ingénieurs, la simulation physique en temps réel change radicalement le processus de conception : là où des heures de calcul étaient nécessaires, des résultats apparaissent en secondes. Cette offensive de NVIDIA dans l'industrie s'inscrit dans une stratégie plus large visant à faire de l'informatique accélérée le socle de la transformation industrielle européenne. Le concept de "souveraineté numérique" est central : face aux craintes européennes de dépendance aux clouds américains, l'Industrial AI Cloud positionné en Allemagne répond à une demande politique autant qu'économique. CUDA-X, Omniverse, les modèles ouverts Nemotron et les puces NVIDIA équipent désormais les logiciels des éditeurs les plus influents du secteur, de Siemens à Dassault Systèmes, créant un écosystème interdépendant difficile à contourner. Dell, IBM, Lenovo et PNY complètent l'offre avec des systèmes accélérés déployables de la périphérie jusqu'aux datacenters. La prochaine étape, déjà visible à Hanovre, est l'intégration de robots humanoïdes dans les chaînes de production, un marché où NVIDIA entend jouer un rôle d'infrastructure aussi structurant que dans l'IA générative.

UEL'Industrial AI Cloud inauguré en Allemagne par Deutsche Telekom sur infrastructure NVIDIA, avec la participation de Dassault Systèmes et Siemens, offre aux industriels européens une infrastructure cloud souveraine pour déployer l'IA en production.

InfrastructureActu
1 source
OpenAI négocie la location d'un datacenter de 10 gigawatts en Ohio, avec le soutien de Nvidia
2The Information AI 

OpenAI négocie la location d'un datacenter de 10 gigawatts en Ohio, avec le soutien de Nvidia

OpenAI est en négociations avancées pour louer un campus de centres de données colossal sur des terres fédérales en Ohio, avec le soutien financier potentiel de Nvidia. Le projet, dont les discussions impliquent deux sources ayant une connaissance directe des négociations, porterait sur une capacité totale de 10 gigawatts, ce qui en ferait l'un des plus grands complexes de ce type au monde. Le coût total du projet, s'il est entièrement réalisé, atteindrait au moins 500 milliards de dollars aux prix actuels des puces, de la main-d'oeuvre, de l'énergie et des matériaux. OpenAI contrôlerait les équipements via un bail à long terme et serait responsable des paiements dès le lancement des opérations, la première phase étant attendue pour 2028. L'ampleur de cet investissement reflète la course effrénée aux infrastructures de calcul que se livrent les grands acteurs de l'IA. Un campus de 10 gigawatts représente une puissance électrique équivalente à celle de plusieurs grandes villes, signalant que les besoins en calcul de l'IA générative dépassent largement ce que les centres de données classiques peuvent offrir. L'implication de Nvidia, dont les GPU alimentent la quasi-totalité des systèmes d'IA de pointe, suggère une intégration verticale inédite entre fournisseur de puces et opérateur d'infrastructure. Ce projet s'inscrit dans la stratégie Stargate annoncée début 2025, par laquelle OpenAI, SoftBank et Oracle s'étaient engagés à investir jusqu'à 500 milliards de dollars en infrastructures IA aux États-Unis. Le choix de terres fédérales en Ohio souligne aussi le rôle croissant du gouvernement américain dans la facilitation de ces méga-projets, dans un contexte de concurrence technologique avec la Chine. Si les négociations aboutissent, ce campus deviendrait un pilier central de la capacité de calcul mondiale d'OpenAI pour la prochaine décennie.

UECe méga-projet amplifie l'écart d'infrastructure IA entre les États-Unis et l'Europe, où aucun investissement d'ampleur comparable n'est prévu, renforçant le risque de dépendance européenne aux capacités de calcul américaines.

InfrastructureActu
1 source
Des data centers IA flottants alimentés par les vagues de l'océan : la Silicon Valley mise sur cette piste
3Ars Technica AI 

Des data centers IA flottants alimentés par les vagues de l'océan : la Silicon Valley mise sur cette piste

Des investisseurs de la Silicon Valley, dont Peter Thiel, cofondateur de Palantir, ont misé des centaines de millions de dollars sur un concept inédit : des centres de données flottants alimentés par l'énergie des vagues océaniques. Le dernier tour de financement, d'un montant de 140 millions de dollars annoncé le 4 mai, doit permettre à la startup Panthalassa de finaliser une installation pilote de fabrication près de Portland, en Oregon, et d'accélérer le déploiement de ses "nœuds" marins. Ces plateformes flottantes captent l'énergie des vagues pour alimenter directement des puces d'intelligence artificielle embarquées, puis transmettent les résultats des modèles, sous forme de tokens d'inférence, aux clients via liaison satellite, sans jamais passer par un data center terrestre. L'enjeu est de taille : ce modèle transforme un problème de transport d'énergie en un problème de transport de données, une substitution potentiellement décisive. Comme l'explique Benjamin Lee, ingénieur et architecte informatique à l'Université de Pennsylvanie, "réaliser du calcul IA sur l'océan nécessite de transférer les modèles vers les nœuds en mer, puis de répondre aux requêtes". Concrètement, cela signifie que les opérateurs n'auraient plus besoin de construire des lignes à haute tension ni de négocier l'accès au réseau électrique terrestre, deux obstacles majeurs qui ralentissent actuellement le déploiement de l'infrastructure IA à grande échelle. Cette initiative émerge dans un contexte où les géants de la tech font face à des difficultés croissantes pour implanter des data centers sur la terre ferme : contraintes foncières, pénuries énergétiques locales, délais de raccordement au réseau et oppositions réglementaires freinent les projets de Microsoft, Google ou Amazon. Le secteur cherche des alternatives radicales, qu'il s'agisse de l'énergie nucléaire modulaire ou, désormais, de l'offshore. Panthalassa devra encore démontrer la fiabilité de ses nœuds face aux conditions marines extrêmes, la latence acceptable pour les cas d'usage IA, et la viabilité économique à grande échelle, autant de défis techniques que le pilote de Portland sera chargé de valider.

InfrastructureActu
1 source
Comment xAI Colossus redéfinit les règles de la course à l’IA
4Le Big Data 

Comment xAI Colossus redéfinit les règles de la course à l’IA

En mars 2023, Elon Musk fonde xAI pour affronter directement OpenAI, Google et Meta dans la course aux grands modèles de langage. Le premier modèle, Grok, sort fin 2023 avec des résultats prometteurs, mais l'entreprise se heurte rapidement à un obstacle structurel majeur : elle ne possède aucune infrastructure propre et loue sa puissance de calcul auprès de fournisseurs cloud comme Oracle. Pour briser cette dépendance, Musk lance dès le printemps 2024 un chantier d'une rapidité inédite. xAI rachète une ancienne usine Electrolux de 73 000 mètres carrés à Memphis, Tennessee, et y déploie le supercalculateur Colossus. Début 2026, le site concentre environ 555 000 processeurs NVIDIA interconnectés, principalement des H100 et H200 dans le premier bloc (Colossus 1), et la nouvelle architecture Blackwell GB200/GB300 dans le second (Colossus 2), auxquels s'ajoute une extension satellitaire en cours à Southaven. À près de 35 000 dollars l'unité, le seul achat des composants dépasse les 18 milliards de dollars. Cette infrastructure redéfinit les rapports de force dans l'industrie de l'IA. En contrôlant son propre parc de calcul, xAI s'affranchit des délais et des contraintes imposés par les fournisseurs tiers, ce qui lui permet d'accélérer l'entraînement de ses modèles au rythme qu'elle impose. La densité thermique extrême générée par 555 000 puces a nécessité l'abandon du refroidissement par air au profit d'un système à eau intégral en circuit fermé, fourni par Dell et Supermicro, qui capte la chaleur directement sur le silicium et réduit significativement les coûts d'électricité liés à la climatisation. Sur le plan réseau, xAI a fait le choix de rejeter l'InfiniBand, standard dominant mais coûteux et en rupture mondiale, pour déployer la plateforme NVIDIA Spectrum-X Ethernet, avec routage adaptatif et protocole RoCE, afin d'éliminer la latence de queue qui paralyse les clusters lors des échanges massifs de paramètres entre processeurs. Ce projet s'inscrit dans une rivalité technologique et géopolitique qui dépasse largement xAI. La puissance de calcul est devenue la ressource stratégique centrale de l'IA : qui contrôle les clusters contrôle le rythme d'innovation. Microsoft, Google et Amazon ont chacun engagé des dizaines de milliards dans leurs propres datacenters, tandis que la pénurie mondiale de puces NVIDIA maintient une pression constante sur les acteurs moins capitalisés. En construisant Colossus en moins d'un an, là où l'industrie estimait le délai à deux ans minimum, xAI a envoyé un signal clair sur sa capacité d'exécution. La prochaine étape sera de transformer cette puissance brute en avance technologique durable face à des concurrents qui ne restent pas immobiles.

UELa concentration de capacité de calcul chez les acteurs américains creuse l'écart avec les laboratoires et startups européens, renforçant leur dépendance aux infrastructures cloud extérieures à l'UE.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic