Aller au contenu principal
Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix
InfrastructureVentureBeat AI6sem· 2 min de lecture

Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix

Source originale ↗·

Les entreprises qui investissent massivement dans les GPU d'intelligence artificielle n'en utilisent en réalité que 5 % de leur capacité, selon le rapport 2026 de Cast AI sur l'optimisation Kubernetes, qui s'appuie sur des mesures de clusters en production réelle. Laurent Gil, cofondateur et président de Cast AI, suit cette dynamique depuis deux ans. Il estime qu'une gestion humaine raisonnable devrait atteindre environ 30 % d'utilisation, compte tenu des cycles jour/nuit et des week-ends. À 5 %, les entreprises exploitent leur infrastructure la plus coûteuse à un sixième de ce que produirait une approche sans effort particulier. Dans le même temps, AWS a discrètement relevé ses prix sur les GPU H200 réservés d'environ 15 % un samedi de janvier, sans annonce officielle, tandis que les fabricants de mémoire ont augmenté les tarifs de la HBM3e de 20 % pour 2026. C'est la première fois depuis le lancement d'EC2 par AWS en 2006 qu'un hyperscaler hausse ses prix GPU réservés plutôt que de les baisser.

Ce paradoxe a des conséquences concrètes sur les budgets technologiques de milliers d'entreprises. L'hypothèse fondamentale qui sous-tend la plupart des projections de dépenses cloud, que la puissance de calcul devient moins chère chaque année, ne tient plus au sommet de la pile. Le marché s'est scindé en deux niveaux : côté commodity, les prix du H100 à la demande ont chuté de 7,57 dollars par GPU-heure en septembre 2025 à environ 3,93 dollars aujourd'hui, avec des fournisseurs comme Lambda Labs ou RunPod sous les 3 dollars. Mais côté frontier, la logique s'est inversée. Nvidia a reçu des commandes pour 2 millions de puces H200 pour 2026, contre un stock disponible de 700 000 unités. Les capacités d'assemblage avancé de TSMC, indispensables à chaque GPU équipé de HBM, sont réservées jusqu'à mi-2027 au moins. AMD a prévenu de ses propres hausses de prix pour 2026, et même les A100, dont le coût devait baisser à l'expiration des réservations triennales de 2023, repartent à la hausse.

La mécanique qui explique ces 5 % d'utilisation tient à un processus d'achat dominé par la peur de manquer. Une entreprise rejoint une liste d'attente chez un hyperscaler, attend des semaines ou des mois, puis reçoit un appel : 36 GPU disponibles immédiatement, engagement d'un ou trois ans exigé, à prendre ou à laisser. La question n'est alors plus de savoir si les charges de travail justifient cette capacité, mais de ne pas perdre le créneau. Une fois les GPU obtenus, personne ne les rend : les récupérer prendrait des mois et aucune équipe ne veut être celle qui a renoncé à sa capacité. La flotte reste donc allumée, facturée à l'heure, utilisée ou non. Gil observe même des entreprises payer les tarifs à la demande, trois fois plus chers que les réservations annuelles, simplement parce que la souplesse paraît moins risquée que l'engagement. La pénurie nourrit la thésaurisation, et la thésaurisation entretient la pénurie.

Impact France/UE

Les entreprises européennes utilisant des GPU cloud subissent les mêmes hausses de prix sur les H200 réservés et le HBM3e, alourdissant leurs budgets IA sans gain de performance.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

HP et l'art de l'IA et des données pour les entreprises
1AI News 

HP et l'art de l'IA et des données pour les entreprises

À quelques jours du salon AI & Big Data Expo, prévu les 18 et 19 mai au McEnery Convention Center de San Jose, Jérôme Gabryszewski, responsable du développement commercial IA et Data Science chez HP, a accordé une interview à Artificial Intelligence News pour évoquer les défis concrets que rencontrent les grandes entreprises dans leur adoption de l'intelligence artificielle. Le constat est sans appel : malgré un accès abondant à leurs propres données, la plupart des organisations peinent à en tirer parti. La première embûche n'est pas technique : c'est la dette organisationnelle et architecturale. Avant d'automatiser quoi que ce soit, les entreprises doivent réconcilier des données éparpillées entre départements, des schémas incohérents et des systèmes legacy jamais conçus pour l'interopérabilité. Le travail de gouvernance précède toujours le déploiement technique. Sur la question des modèles en apprentissage continu, Gabryszewski recommande d'appliquer les mêmes exigences qu'un déploiement logiciel classique : aucune mise à jour en production sans validation formelle. La dérive conceptuelle est surveillée via des pipelines MLOps avec détection automatique, et la contamination des données d'entraînement est traitée comme un problème de traçabilité autant que de sécurité. Les entreprises qui maîtrisent ces risques ne sont pas forcément les plus avancées techniquement, mais celles qui ont intégré la gouvernance IA dans leur cadre de gestion des risques avant de passer à l'échelle. Ce positionnement a des implications concrètes pour des milliers d'équipes data qui cherchent à réduire leur dépendance au cloud sans sacrifier la puissance de calcul. La question du local versus cloud est au cœur des arbitrages actuels : chaque inférence envoyée dans le cloud représente un coût, une latence et une exposition potentielle de données sensibles. Disposer d'une infrastructure locale capable de faire tourner des modèles de grande taille change fondamentalement l'équation économique et réglementaire, notamment pour les secteurs soumis à des contraintes strictes comme la finance, la santé ou la défense. HP s'appuie sur quinze ans de développement de sa gamme professionnelle Z pour positionner son matériel comme épine dorsale de ce cycle IA autonome. Le ZBook Ultra et le Z2 Mini couvrent les usages mobiles et compacts, mais c'est le ZGX Nano qui attire l'attention : un supercalculateur IA de 15x15 cm, équipé du superpuce NVIDIA GB10 Grace Blackwell, 128 Go de mémoire unifiée et 1 000 TOPS de performance FP4, capable de faire tourner localement des modèles jusqu'à 200 milliards de paramètres. En interconnectant deux unités, on atteint 405 milliards de paramètres, sans cloud, sans datacenter, sans file d'attente. L'appareil est livré préconfiguré avec la pile logicielle NVIDIA DGX et le HP ZGX Toolkit, permettant aux équipes d'être opérationnelles en quelques minutes. HP vise ainsi le segment des équipes IA qui ont besoin de puissance souveraine et immédiate, à l'heure où la course aux modèles toujours plus grands redistribue les cartes du marché des workstations professionnelles.

InfrastructureActu
1 source
5 % d'utilisation GPU : le problème d'infrastructure IA à 401 milliards de dollars que les entreprises ne peuvent plus ignorer
2VentureBeat AI 

5 % d'utilisation GPU : le problème d'infrastructure IA à 401 milliards de dollars que les entreprises ne peuvent plus ignorer

Les entreprises ont dépensé des milliards pour sécuriser des GPU à tout prix, et la facture est désormais présentée. Selon Gartner, l'infrastructure IA représente 401 milliards de dollars de nouvelles dépenses en 2025, mais des audits terrain révèlent une réalité bien plus sombre : le taux d'utilisation moyen des GPU en entreprise stagne à 5 %. Pendant deux ans, la panique du « GPU scramble » a poussé DSI et directions financières à constituer des réserves de capacité sous des cycles d'amortissement de trois à cinq ans. Ces actifs sont désormais des coûts fixes inscrits aux bilans, indépendamment de leur usage effectif. Les chiffres du Q1 2026 confirment le basculement : dans le baromètre de VentureBeat, le critère « accès aux GPU » est passé de 20,8 % à 15,4 % en un seul trimestre comme moteur principal des décisions d'achat, tandis que le coût par inférence et le TCO (coût total de possession) bondissaient de 34 % à 41 %, dépassant la performance pure comme critère dominant. À 5 % d'utilisation, l'arithmétique est brutale : pour chaque dollar investi en silicium, 95 centimes partent directement dans la marge des fournisseurs cloud. Dans n'importe quel autre département, un taux de gaspillage de 95 % serait un motif de licenciement ; dans l'infrastructure IA, on appelait ça de la « préparation ». Les grands groupes comme Intuit, Mastercard ou Pfizer, qui bénéficiaient de relations privilégiées avec AWS, Azure et GCP pour sécuriser des réservations de capacité, se sont retrouvés riches en GPU mais pauvres en production : des équipes internes paralysées par la gouvernance des données, la gravité des données et une immaturité architecturale persistante ont empêché toute valorisation réelle de ces ressources. Le discours dominant sur la rareté du silicium a servi d'écran commode pour masquer cette inefficacité structurelle. Ce virage marque la fin de l'ère du chèque en blanc. Le passage à une tarification à l'usage en 2026 transforme les architectures héritées des phases pilotes, pensées avec des tokens en coûts fixes, en véritables passifs financiers. Les agents en contexte long et les pipelines de récupération complexes, construits quand les tokens étaient un coût noyé dans des licences forfaitaires, deviennent intenables sous une facturation mesuréé. L'inférence n'est plus un projet tactique : c'est un modèle économique stratégique dont les unités économiques sont, pour la plupart des entreprises, encore insoutenables. La question n'est plus de savoir si les investissements passés étaient justifiés, mais comment extraire un retour mesurable d'une infrastructure déjà déployée avant que les cycles d'amortissement ne l'emportent.

UELes entreprises européennes investies en infrastructure GPU sont exposées au même risque de sous-utilisation à 5 %, avec des cycles d'amortissement sur 3-5 ans qui transforment ces actifs en passifs financiers au moment où le marché bascule vers une tarification à l'usage.

💬 5 % d'utilisation, c'est le genre de stat qui ferait renvoyer n'importe quel responsable infra dans un département classique. La panique du GPU scramble a servi de couverture : on achetait du silicium pour ne pas rater le train, sans se demander si les équipes data étaient capables d'en faire quelque chose. Le basculement vers le pay-as-you-go va transformer ces réserves en passifs, et ça va faire des dégâts.

InfrastructureOpinion
1 source
3AI News 

IBM : une gouvernance rigoureuse de l'IA protège les marges des entreprises

Rob Thomas, vice-président senior et directeur commercial d'IBM, a récemment exposé une thèse structurante pour les décideurs technologiques : les logiciels suivent une trajectoire prévisible, passant du statut de produit à celui de plateforme, puis d'infrastructure fondamentale. Chaque transition modifie radicalement les règles du jeu. IBM estime que l'intelligence artificielle franchit actuellement ce dernier seuil dans l'architecture des grandes entreprises, passant d'un outil expérimental à une couche opérationnelle centrale, intégrée dans la sécurité réseau, la génération de code, les décisions automatisées et la création de valeur commerciale. Cette évolution a été mise en lumière par la préversion de Claude Mythos, le nouveau modèle d'Anthropic capable, selon l'entreprise, de détecter et exploiter des vulnérabilités logicielles à un niveau comparable aux meilleurs experts humains. Face à ce pouvoir, Anthropic a lancé le projet Glasswing, une initiative sélective visant à placer ces capacités en priorité entre les mains des équipes de défense réseau. Pour IBM, cette réalité crée une exposition opérationnelle majeure pour toute organisation dont la stratégie repose sur des modèles d'IA fermés et propriétaires. Lorsqu'un système autonome peut rédiger des exploits et influencer l'environnement de sécurité global, concentrer la compréhension de ces systèmes chez un petit nombre de fournisseurs devient un risque structurel grave. Les architectures opaques génèrent également des frictions concrètes : connecter un modèle propriétaire à des bases de données vectorielles d'entreprise ou à des lacs de données sensibles crée des goulots d'étranglement de débogage considérables. Quand un modèle produit des sorties anormales ou que le taux d'hallucination augmente, les équipes techniques n'ont pas la visibilité interne nécessaire pour déterminer si l'erreur provient du pipeline de génération augmentée par récupération ou des poids du modèle de base. S'y ajoutent des problèmes de latence liés à l'intégration d'architectures sur site avec des modèles cloud verrouillés, ainsi que des coûts de calcul liés aux appels API continus qui érodent précisément les marges que ces systèmes sont censés préserver. La thèse d'IBM s'inscrit dans un débat plus large sur l'avenir de l'IA en entreprise : à l'ère des modèles-produits, la fermeture était une stratégie défendable et lucrative. À l'ère de l'IA-infrastructure, elle devient un handicap compétitif et sécuritaire. Aucun fournisseur unique ne peut anticiper tous les vecteurs d'attaque, les défaillances système ou les besoins opérationnels d'un écosystème aussi hétérogène que celui des grandes entreprises. IBM plaide donc pour une gouvernance ouverte et inspectable de l'IA, où la priorité n'est plus seulement ce que les modèles peuvent faire, mais comment ils sont construits, audités et améliorés dans la durée. Dans ce contexte, des initiatives comme Glasswing d'Anthropic signalent une prise de conscience sectorielle, mais la question de qui contrôle et comprend réellement ces infrastructures critiques reste entière.

UELa thèse d'IBM sur la gouvernance ouverte de l'IA s'aligne avec les exigences de l'AI Act européen en matière de transparence et d'auditabilité des systèmes IA déployés dans des infrastructures critiques.

InfrastructureOpinion
1 source
La mise en production de l'IA à grande échelle oblige les entreprises à repenser leur infrastructure
4VentureBeat AI 

La mise en production de l'IA à grande échelle oblige les entreprises à repenser leur infrastructure

Le déploiement de l'intelligence artificielle à grande échelle est en train de redessiner l'architecture informatique des entreprises. C'est le constat que dressent Tarkan Maner, président et directeur commercial de Nutanix, et Thomas Cornely, vice-président exécutif en charge du produit, qui observent une bascule profonde dans la façon dont les organisations abordent l'IA. Après des mois de prototypes et d'expérimentations dans le cloud, les entreprises cherchent désormais à déployer ces systèmes sur des charges de travail réelles, pour des milliers d'utilisateurs simultanés. Cornely résume l'écart : "Faire un prototype, c'est une chose. Déployer ce prototype pour 10 000 employés, c'en est une autre." La montée en puissance des agents IA, capables d'enchaîner des tâches complexes en toute autonomie, amplifie encore cette pression : les infrastructures doivent gérer des workflows multi-étapes, des charges imprévisibles en temps réel, et coordonner l'accès aux données entre équipes. Ce passage du pilote à la production révèle des contraintes pratiques que l'expérimentation en cloud avait masquées. Les questions de gouvernance des données, de contrôle, de sécurité et de coût prennent rapidement le dessus dès que les volumes augmentent. Les cas d'usage qui progressent le plus vite sont la recherche documentaire et la récupération de connaissances, la détection prédictive des menaces en cybersécurité, les workflows de développement logiciel, et le support client. Dans le secteur bancaire, notamment en Europe et aux États-Unis, des établissements déploient déjà des outils de reconnaissance faciale et de détection prédictive des cyberattaques pilotés par l'IA. L'enjeu n'est pas de remplacer les décisions humaines, mais de trouver le bon équilibre entre l'automatisation et l'intervention humaine, ce que Maner résume par l'idée d'une "harmonie" entre agents IA, robotique et capital humain, optimisée pour de meilleurs résultats opérationnels. Cette transformation s'inscrit dans un contexte de mutation accélérée qui touche l'ensemble des secteurs, des industries réglementées comme la banque, la santé et les administrations publiques jusqu'à la distribution et la manufacture. Des frameworks comme OpenClaw facilitent désormais la création d'agents par des équipes qui n'ont pas de compétences en infrastructure IA, ce qui accroît la pression sur les plateformes chargées de sécuriser ces déploiements. La trajectoire dominante est claire : débuter dans le cloud pour accéder rapidement aux ressources, puis rapatrier les applications critiques sur site à mesure qu'elles entrent en production, sur des plateformes qui résolvent les problèmes de sécurité et de coût à la fois. Nutanix se positionne explicitement sur ce segment, voyant dans cette transition une opportunité de croissance majeure à mesure que les entreprises cherchent des partenaires capables d'accompagner l'IA de l'expérimentation au déploiement industriel.

UELe secteur bancaire européen est cité parmi les premiers adopteurs de l'IA en production (reconnaissance faciale, détection prédictive des cyberattaques), illustrant les enjeux croissants de gouvernance et de souveraineté des données pour les entreprises françaises et européennes.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic