Aller au contenu principal
Vous ne trouvez pas de RAM ? Merci OpenAI qui a réservé 40% du stock mondial
InfrastructureLe Big Data1h

Vous ne trouvez pas de RAM ? Merci OpenAI qui a réservé 40% du stock mondial

1 source couvre ce sujet·Source originale ↗·

En octobre 2025, Sam Altman a conclu des accords préliminaires avec les deux géants mondiaux de la mémoire vive, Samsung Electronics et SK Hynix, pour réserver 900 000 wafers de DRAM par mois — soit environ 40 % de la production mondiale totale. Ces lettres d'intention, signées sans commande ferme ni paiement immédiat, ont suffi à déclencher une onde de choc sur le marché. Les deux fabricants coréens ignoraient qu'ils s'engageaient simultanément pour les mêmes volumes. Résultat : un kit DDR5-6000 de 32 Go, qui coûtait 139 € avant ces annonces, s'affiche aujourd'hui à plus de 340 € chez des revendeurs comme LDLC. En mars 2026, la situation s'est encore aggravée lorsqu'OpenAI a rompu son engagement de 71 milliards de dollars avec SK Hynix, faisant chuter les actions de Micron et semant la panique chez les distributeurs qui avaient déjà anticipé la pénurie en masquant leurs tarifs publics.

L'impact est immédiat et concret pour des millions d'utilisateurs. Les fabricants comme Micron ont fermé leur division grand public — la marque Crucial a pratiquement disparu des rayons — pour rediriger leurs lignes de production vers la mémoire HBM destinée aux centres de données IA. TrendForce estime que les datacenters capteront 70 % de la production mondiale de puces en 2026, ne laissant que des miettes au marché des PC. La part de la mémoire dans le coût d'un ordinateur HP est passée de 15 % à 35 %. Les consoles portables comme le Steam Deck de Valve sont en rupture de stock dans le monde entier, faute de composants disponibles. Gartner prévoit une chute des ventes de PC d'entrée de gamme et de configurations accessibles aux petits budgets, pénalisant directement les étudiants, les travailleurs indépendants et les pays émergents.

Cette crise illustre un phénomène plus large : la mainmise croissante des géants de l'IA sur les chaînes d'approvisionnement en semi-conducteurs, au détriment du marché grand public. OpenAI, forte de la confiance des marchés et de ses investisseurs, a pu bloquer une fraction massive de la production mondiale sans débourser un centime, simplement par le poids de sa signature. Ce type de spéculation sur lettres d'intention crée des goulots d'étranglement artificiels qui faussent les prix bien avant que la moindre puce ne sorte d'usine. La question qui se pose désormais est celle de la régulation : faut-il encadrer les achats anticipés de composants stratégiques pour éviter que les ambitions d'un seul acteur ne paralysent l'ensemble du marché informatique mondial ? Les prochains mois seront déterminants, notamment si d'autres acteurs comme Microsoft, Google ou Meta suivent la même stratégie d'accaparement.

Impact France/UE

Les prix de la RAM ont doublé en France (139 € à 340 € chez LDLC), pénalisant directement étudiants et indépendants, et la question d'une régulation européenne des réservations massives de composants stratégiques par les géants de l'IA devient urgente.

À lire aussi

NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA
1Le Big Data 

NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA

NVIDIA et Marvell Technology ont annoncé un partenariat stratégique majeur, scellé par un investissement de 2 milliards de dollars de NVIDIA dans Marvell. L'accord s'articule autour de NVLink Fusion, une plateforme modulaire permettant de construire des infrastructures d'IA semi-personnalisées. Concrètement, Marvell apportera des XPU (processeurs accélérés sur mesure) et un réseau évolutif compatible, tandis que NVIDIA fournit l'ensemble de son arsenal matériel : processeurs Vera, cartes réseau ConnectX, DPU BlueField, interconnexion NVLink, commutateurs Spectrum-X et capacité de calcul déployable en rack. Le titre Marvell a bondi de 11 % dès l'annonce mardi, signe que les marchés ont immédiatement perçu la portée de l'accord. Le partenariat couvre également les réseaux télécoms, via NVIDIA Aerial AI-RAN, avec des ambitions sur la 5G et la future 6G, ainsi que sur des technologies d'interconnexion optique et de photonique sur silicium pour améliorer les performances et réduire la consommation énergétique. Pour les entreprises qui développent leurs propres puces d'accélération, NVLink Fusion ouvre la voie à des architectures hybrides entièrement compatibles avec l'écosystème NVIDIA — GPU, réseau et stockage compris. C'est un changement structurel : jusqu'ici, intégrer des composants tiers dans une infrastructure NVIDIA relevait du casse-tête d'interopérabilité. Désormais, les hyperscalers, opérateurs télécom et acteurs du cloud pourront combiner des XPU Marvell avec la stack NVIDIA sans friction. Pour les utilisateurs finaux, l'impact est indirect mais réel : des modèles d'IA générative plus complexes pourront tourner à moindre latence, ce qui se traduit par des services de recommandation, de création de contenu ou de simulation plus réactifs. Dans les télécoms, l'alliance prépare le terrain pour des réseaux 5G/6G capables de supporter des usages exigeants comme la télémédecine en temps réel ou les véhicules autonomes. Ce rapprochement s'inscrit dans un contexte de demande explosive en capacité de calcul, portée par la généralisation de l'IA générative et l'explosion des volumes de données. Jensen Huang, PDG de NVIDIA, parle lui-même d'une "ère de supercalcul" en cours d'avènement. Face à cette pression, les grandes entreprises technologiques mondiales s'engagent dans une course à la construction de centres de calcul dédiés, et NVIDIA cherche à s'imposer comme la colonne vertébrale incontournable de ces infrastructures. Marvell, de son côté, se repositionne comme fournisseur clé de silicium personnalisé pour l'IA — un marché en pleine effervescence où Amazon, Google et Microsoft développent déjà leurs propres puces. L'investissement de 2 milliards de dollars de NVIDIA dans Marvell est autant un signal industriel qu'une manœuvre défensive : consolider l'écosystème avant que les alternatives ne s'imposent.

UELes opérateurs télécom et fournisseurs cloud européens pourront intégrer des architectures hybrides XPU Marvell / stack NVIDIA sans friction, accélérant leurs déploiements 5G/6G et d'IA générative.

InfrastructureOpinion
1 source
Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant
2Presse-citron 

Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant

Google a dévoilé TurboQuant, un nouvel algorithme de compression destiné à optimiser l'utilisation de la mémoire dans les systèmes d'intelligence artificielle. Développé en interne au sein d'Alphabet, cet outil n'est pas un produit grand public, mais une brique technique fondamentale visant à réduire la quantité de mémoire vive nécessaire pour faire fonctionner des modèles de grande taille. La présentation a eu lieu il y a quelques jours, sans annonce de disponibilité externe pour l'instant. L'enjeu est considérable : l'un des principaux freins au déploiement massif de l'IA reste le coût des infrastructures, notamment la mémoire GPU, extrêmement onéreuse. Un algorithme capable de compresser efficacement les poids des modèles sans dégrader leurs performances permettrait à Google de réduire significativement ses coûts opérationnels, tout en accélérant ses services — à commencer par son moteur de recherche, qui intègre désormais des résumés et réponses générés par IA à grande échelle. La compression de modèles, ou quantification, est un champ de recherche très actif où s'affrontent les grandes entreprises tech et les laboratoires académiques. Des techniques comme GPTQ, AWQ ou la quantification 4 bits ont déjà permis des gains importants, mais Google semble vouloir pousser plus loin avec une approche maison. TurboQuant s'inscrit dans une stratégie plus large d'Alphabet pour contrôler toute la chaîne technique de l'IA — des puces (TPU) aux algorithmes d'inférence — et maintenir son avance face à Microsoft, Meta et Amazon.

InfrastructureOpinion
1 source
Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité
3Meta Engineering ML 

Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité

Meta a dévoilé l'Adaptive Ranking Model (ARM), un nouveau système de recommandation publicitaire fonctionnant à l'échelle des grands modèles de langage (LLM). Déployé sur Instagram au quatrième trimestre 2025, ARM a généré une hausse de 3 % des conversions publicitaires et de 5 % du taux de clics pour les utilisateurs ciblés. Le système atteint une complexité de calcul équivalente à celle des meilleurs LLMs — environ 10 GFLOPs par token — tout en maintenant une latence inférieure à 100 millisecondes, soit un ordre de grandeur plus rapide que l'inférence LLM standard. L'enjeu central qu'ARM résout est ce que Meta appelle le « trilemme de l'inférence » : comment faire tourner des modèles d'une complexité comparable à GPT-4 ou Llama dans un environnement publicitaire temps réel, où chaque requête doit aboutir en moins d'une seconde, pour des milliards d'utilisateurs, sans exploser les coûts d'infrastructure. La solution repose sur un routage intelligent des requêtes : plutôt que d'appliquer le même modèle à chaque impression publicitaire, ARM analyse le contexte et l'intention de l'utilisateur pour décider dynamiquement du niveau de complexité nécessaire. Les requêtes simples consomment peu de ressources ; les requêtes complexes mobilisent toute la puissance du modèle LLM-scale. Ce principe d'alignement dynamique entre complexité et contexte permet de maximiser la qualité des prédictions sans surcharger les serveurs. Trois innovations techniques rendent cela possible. Premièrement, une architecture centrée sur la requête plutôt que sur le modèle, permettant de servir un modèle à un trillion de paramètres (O(1T)) de façon économiquement viable. Deuxièmement, une co-conception modèle-matériel : les architectures sont conçues en tenant compte des contraintes précises du silicium utilisé, ce qui améliore significativement l'utilisation des GPU dans des environnements matériels hétérogènes. Troisièmement, une infrastructure de serving repensée autour d'architectures multi-cartes et d'optimisations bas-niveau spécifiques au hardware. Ce développement s'inscrit dans la course que se livrent les grandes plateformes pour intégrer l'intelligence des LLMs dans leurs systèmes de recommandation — un marché où chaque fraction de point de taux de conversion se traduit en milliards de dollars de revenus publicitaires. Pour Meta, dont plus de 98 % des revenus proviennent de la publicité, ARM représente une avancée structurelle : la preuve qu'il est désormais possible de faire fonctionner des modèles de la taille de ceux utilisés pour les chatbots dans des pipelines industriels ultra-contraints en latence et en coût.

UELes annonceurs européens utilisant Instagram et Facebook bénéficient indirectement d'un ciblage publicitaire amélioré, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

InfrastructureOpinion
1 source
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
4NVIDIA AI Blog 

L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique

NVIDIA et la startup Emerald AI ont présenté lors du CERAWeek — le sommet mondial de l'énergie surnommé le « Davos de l'énergie » — une architecture inédite qui transforme les usines à IA en actifs flexibles pour le réseau électrique. Construite sur la plateforme NVIDIA Vera Rubin DSX et le logiciel Conductor d'Emerald AI, cette approche intègre calcul, gestion de l'énergie et pilotage en temps réel dans une architecture unifiée. Concrètement, une usine à IA peut désormais moduler sa consommation électrique en fonction des conditions du réseau, tout en continuant à produire des tokens. Six grands acteurs de l'énergie — AES, Constellation, Invenergy, NextEra Energy, Nscale Energy & Power et Vistra — se sont engagés à construire des capacités de production compatibles avec cette architecture, notamment via des projets hybrides combinant alimentation locale et connexion au réseau. Du côté de l'efficacité pure, NVIDIA revendique une progression d'un million de fois le nombre de tokens générés pour un même budget énergétique, entre le GPU Kepler de 2012 et la plateforme Vera Rubin lancée cette année. La métrique clé est désormais le « tokens par seconde par watt ». Cet enjeu dépasse la simple optimisation technique : la croissance explosive des infrastructures IA menace de déstabiliser des réseaux électriques déjà sous tension. En rendant les centres de calcul capables de s'adapter en temps réel à l'offre disponible — en réduisant leur consommation lors des pics de demande, par exemple — cette approche évite de dimensionner le réseau pour des pointes qui ne surviennent que rarement. Pour les opérateurs d'énergie, cela représente une nouvelle classe de clients industriels qui, au lieu de fragiliser le réseau, peuvent contribuer à sa stabilité. Pour les entreprises qui déploient l'IA à grande échelle, l'avantage est double : des coûts opérationnels réduits et un accès accéléré à la puissance électrique, souvent le principal goulot d'étranglement dans la construction de nouveaux data centers. Jensen Huang, fondateur et PDG de NVIDIA, décrit l'infrastructure IA comme un « gâteau à cinq couches » — énergie, puces, infrastructure, modèles, applications — dans lequel l'énergie constitue la base fondatrice. C'est dans cette logique que s'inscrit également l'annonce de Maximo, une entreprise de robotique solaire incubée par AES, qui a achevé l'installation autonome d'une ferme solaire de 100 mégawatts sur le site Bellefield d'AES, en utilisant NVIDIA Omniverse et Isaac Sim. TerraPower, en partenariat avec SoftServe, a de son côté présenté une plateforme de jumeau numérique propulsée par Omniverse pour accélérer la conception de réacteurs nucléaires. Ces annonces illustrent une tendance de fond : l'IA ne se contente plus de consommer de l'énergie, elle commence à en accélérer la production.

UENscale, opérateur européen de data centers, figure parmi les six partenaires engagés dans cette architecture, ce qui pourrait influencer la stratégie énergétique des centres de calcul IA en Europe.

InfrastructureActu
1 source