Les locataires de GPU jouent à la loterie du silicium
Des chercheurs du College of William & Mary, du Jefferson Lab et de la société Silicon Data ont publié une étude révélant une variabilité surprenante dans les performances des GPU loués sur le cloud, un phénomène connu sous le nom de "silicon lottery". Pour mesurer l'ampleur du problème, ils ont exécuté 6 800 instances de leur benchmark maison, SiliconMark, sur 3 500 GPU sélectionnés aléatoirement chez 11 fournisseurs de cloud. Les puces testées couvrent 11 modèles Nvidia, du plus courant au plus avancé, le H200 SXM. Les résultats sont frappants : les performances en calcul virgule flottante 16 bits des 259 GPU H100 PCIe varient jusqu'à 34,5 %, tandis que la bande passante mémoire des 253 H200 SXM présente des écarts allant jusqu'à 38 %. Carmen Li, fondatrice et PDG de Silicon Data, résume l'enjeu : une puce plus chère et plus récente peut, dans certains cas, délivrer moins de performances qu'un modèle plus ancien.
Ces écarts ont des conséquences financières directes pour les entreprises et les équipes de recherche qui louent du temps de calcul GPU pour entraîner ou faire tourner des modèles de langage. Si un client paie un tarif premium pour accéder à un H100 ou un H200, il n'a aucune garantie que l'instance qu'il reçoit correspond aux spécifications annoncées. À grande échelle, une différence de performance de 30 à 40 % représente des heures de calcul supplémentaires, des coûts gonflés et des délais allongés. La pratique actuelle de louer des GPU comme une ressource homogène et interchangeable ne reflète pas la réalité physique des puces, et les fournisseurs cloud n'offrent généralement aucune transparence sur la qualité individuelle des instances proposées.
Le phénomène de la "silicon lottery" était déjà documenté depuis au moins 2022, quand des chercheurs de l'Université du Wisconsin avaient constaté son impact sur les superordinateurs dépendant de GPU. Mais son ampleur dans le cloud computing grand public n'avait jamais été mesurée à cette échelle. Les causes sont multiples : variation dans les procédés de fabrication des puces, différences de configuration côté opérateurs, systèmes de refroidissement hétérogènes et historique d'utilisation des GPU. L'analyse de Silicon Data pointe toutefois les défauts de fabrication comme principal responsable. Pour se protéger, Jason Cornick, responsable infrastructure chez Silicon Data, recommande une approche pragmatique : benchmarker systématiquement chaque instance louée avec un outil comme SiliconMark avant de lancer des charges de travail intensives, afin de vérifier que les performances réelles correspondent bien à ce qui est facturé.
Les équipes de recherche et entreprises IA en France et en Europe qui louent des GPU sur le cloud subissent potentiellement des écarts de performance de 30 à 40 % à tarif égal, alourdissant directement leurs coûts de calcul et leurs délais d'entraînement de modèles.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



