Aller au contenu principal
InfrastructureFrenchWeb31min· 1 min de lecture

L’IA assèche le marché de la mémoire : APPLE anticipe déjà les prochaines pénuries

Source originale ↗·

Après deux ans dominés par la pénurie de GPU NVIDIA, une nouvelle tension s'installe dans la chaîne d'approvisionnement technologique : la mémoire. Les puces HBM (High Bandwidth Memory) et la DRAM de haute performance, indispensables aux systèmes d'IA, sont en train de devenir le nouveau goulot d'étranglement de l'industrie. Apple aurait d'ores et déjà pris des mesures anticipatoires en sécurisant des volumes importants auprès de ses fournisseurs, notamment Samsung et SK Hynix, pour prévenir toute rupture sur ses prochaines générations de produits intégrant des fonctionnalités d'IA avancées.

La demande explosive en mémoire est directement portée par les centres de données IA : chaque cluster de GPU H100 ou Blackwell consomme des quantités massives de HBM, réduisant d'autant la disponibilité pour les constructeurs d'appareils grand public. Pour Apple, dont les puces M et A series embarquent de la mémoire unifiée à haute vitesse, une pénurie signifierait des retards de production ou une hausse des coûts sur les iPhone, Mac et iPad, avec des répercussions directes sur les marges et les délais de livraison.

Cette dynamique s'inscrit dans un mouvement plus large de reconfiguration des priorités industrielles autour de l'IA. Les fabricants de mémoire comme Micron, SK Hynix et Samsung investissent massivement dans la capacité HBM, mais les cycles de production sont longs, 18 à 24 mois pour de nouvelles lignes. Les géants de la tech qui sécurisent leurs approvisionnements dès maintenant, comme Apple, prennent une longueur d'avance décisive sur ceux qui attendront que la pénurie soit déjà installée.

Impact France/UE

Une pénurie de mémoire HBM pourrait entraîner une hausse des prix et des retards de livraison sur les appareils grand public en Europe.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L’IA Slop n’est pas seul responsable de la pénurie de RAM : Apple y prend sa part
1Frandroid 

L’IA Slop n’est pas seul responsable de la pénurie de RAM : Apple y prend sa part

La pénurie mondiale de mémoire vive qui frappe le marché des composants informatiques depuis plusieurs mois trouve deux coupables de poids : la frénésie de l'IA générative d'un côté, et Apple de l'autre. Si les modèles de langage et les infrastructures d'entraînement aspirent des quantités massives de DRAM et de HBM, le géant de Cupertino contribue lui aussi significativement à la tension sur les approvisionnements, au point d'aggraver une situation déjà tendue pour les fabricants de PC et les constructeurs de serveurs. La demande d'Apple s'explique par la montée en gamme systématique de ses appareils : les Mac équipés de puces M-series intègrent désormais des configurations mémoire unifiée de plus en plus généreuses, tandis que les iPhone et iPad embarquent davantage de RAM pour supporter les fonctionnalités d'Apple Intelligence. Cette stratégie, combinée aux volumes colossaux produits par Apple chaque trimestre, mobilise une part non négligeable de la capacité mondiale des fondeurs comme SK Hynix, Samsung ou Micron. Le contexte est celui d'un marché DRAM sous pression depuis fin 2024, où l'explosion des besoins en mémoire pour les puces IA HBM a détourné les capacités de production vers ce segment plus rentable. Résultat : les prix de la RAM grand public et serveur remontent, et les délais d'approvisionnement s'allongent. La convergence de ces deux forces — IA et Apple — laisse peu de marge aux autres acteurs du marché pour absorber le choc.

UELes fabricants et acheteurs européens de PC et de serveurs subissent des hausses de prix et des délais d'approvisionnement allongés sur la mémoire vive.

InfrastructureOpinion
1 source
Nvidia mise sur l’IA physique : pourquoi les marchés d’Asie s’emballent déjà ?
2Le Big Data 

Nvidia mise sur l’IA physique : pourquoi les marchés d’Asie s’emballent déjà ?

L'Asie représente désormais 90 % des coûts de production de Nvidia, contre 65 % il y a tout juste un an. Ce basculement, documenté par Bloomberg, illustre une réorientation stratégique majeure du géant américain des puces graphiques. Nvidia ne se concentre plus uniquement sur les processeurs pour data centers : sous l'impulsion de son PDG Jensen Huang, l'entreprise accélère dans ce qu'elle appelle l'IA physique, un ensemble de technologies englobant la robotique, les systèmes autonomes et la production industrielle augmentée. Dans ce cadre, des partenariats se nouent à grande vitesse avec des acteurs asiatiques majeurs comme SK Hynix et Samsung Electronics pour la mémoire et les composants avancés, mais aussi avec des entreprises moins connues à l'international : LG Electronics sur un projet de robot domestique, Nanya Technology à Taïwan, et des fabricants chinois comme Huizhou Desay et Pateo Connect. Les marchés boursiers ont immédiatement réagi : LG Electronics a bondi jusqu'à 15 % après l'annonce de discussions avec Nvidia, Nanya Technology a progressé de 10 %, tandis que les titres chinois concernés enregistraient également des hausses marquées. L'impact de cette dynamique dépasse largement les seuls partenaires directs de Nvidia. Chaque annonce de collaboration est désormais perçue par les investisseurs comme un signal de croissance future, transformant des entreprises industrielles régionales en acteurs stratégiques mondiaux du jour au lendemain. Pour Ling Vey-Sern, analyste chez Union Bancaire Privée, cette dépendance croissante à l'égard des chaînes d'approvisionnement asiatiques est structurelle et inévitable : les géants technologiques n'ont d'autre choix que de s'appuyer sur des écosystèmes de fabrication très spécialisés. L'IA physique, contrairement à l'IA générative qui reposait essentiellement sur des infrastructures cloud pilotées par Microsoft, Amazon ou Alphabet, exige une base industrielle dense : capteurs, actionneurs, systèmes embarqués, assemblage de précision. C'est précisément là où l'Asie concentre ses compétences depuis des décennies. Ce virage s'inscrit dans un contexte d'investissements colossaux de la part des géants américains, certains annonçant jusqu'à 200 milliards de dollars de dépenses en infrastructures IA. Nvidia capte une part significative de ces budgets et entraîne dans son sillage l'ensemble de sa chaîne de fournisseurs. Samsung en a déjà tiré les bénéfices, ayant récemment multiplié ses résultats trimestriels. La part asiatique dans les coûts de production de Nvidia n'est pas une simple métrique de dépendance : c'est le reflet d'un cycle d'investissement qui se déplace vers le prochain goulot d'étranglement, après le calcul et la mémoire, désormais vers les composants et systèmes nécessaires à l'IA qui agit dans le monde réel. Les prochaines étapes dépendront de la vitesse à laquelle les robots, véhicules autonomes et usines intelligentes passeront du stade expérimental au déploiement industriel à grande échelle.

UELe basculement des chaînes d'approvisionnement vers l'Asie pour l'IA physique accentue la dépendance technologique de l'Europe vis-à-vis de fournisseurs non-européens, renforçant les enjeux de souveraineté industrielle déjà au cœur des débats sur l'autonomie stratégique de l'UE.

InfrastructureOpinion
1 source
L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte
3VentureBeat AI 

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber. Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne. La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

InfrastructureActu
1 source
IA : cette avancée de Google qui fait trembler les fabricants de puces sur les marchés
4La Tribune 

IA : cette avancée de Google qui fait trembler les fabricants de puces sur les marchés

Google a annoncé TurboQuant, un algorithme de compression capable de réduire drastiquement les besoins en mémoire vive des grands modèles de langage (LLM). L'annonce, faite en mars 2026, a provoqué une réaction immédiate sur les marchés financiers : les actions des fabricants de mémoires et de puces, dont Micron et SK Hynix, ont fortement chuté en Bourse dès la publication de la nouvelle. L'impact potentiel est considérable pour toute l'industrie des semi-conducteurs. Si TurboQuant tient ses promesses, les data centers et les développeurs d'IA auront besoin de beaucoup moins de RAM pour faire tourner des modèles de grande taille — ce qui représente une menace directe sur les volumes de vente de mémoire HBM (High Bandwidth Memory), un segment très lucratif dominé par Samsung, SK Hynix et Micron. Pour les utilisateurs et les entreprises qui déploient des LLM, cela pourrait en revanche signifier des coûts d'infrastructure nettement réduits et une accessibilité accrue à des modèles puissants. Cette avancée s'inscrit dans une course plus large à l'efficacité des modèles d'IA, où la quantisation et la compression sont devenues des axes majeurs de recherche depuis 2023. Des techniques comme GPTQ ou AWQ avaient déjà tracé la voie, mais Google, fort de ses ressources et de sa maîtrise de l'infrastructure, entend ici passer à une nouvelle échelle. La question qui agite désormais le secteur est de savoir si TurboQuant sera intégré à Gemini et aux offres cloud de Google, ce qui accélérerait considérablement son adoption industrielle.

UELes entreprises et développeurs européens déployant des LLM pourraient bénéficier d'une réduction sensible des coûts d'infrastructure mémoire si TurboQuant est intégré aux offres cloud grand public.

💬 TurboQuant ne change pas ce qu'on peut faire tourner sur nos GPU quant à la taille des modèles eux-mêmes — mais il transforme des modèles "techniquement possibles" en modèles réellement utilisables avec un vrai contexte long. Pour illustrer : avec une RTX 5080, les modèles 12-14B passent de ~10K à ~60-100K tokens de contexte, soit une fenêtre quasi illimitée pour ces tailles. De quoi faire trembler les fabricants de puces, effectivement.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic