Aller au contenu principal
L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte
InfrastructureVentureBeat AI11h· 2 min de lecture

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

Source originale ↗·

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber.

Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne.

La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des tokens moins chers, des factures plus élevées : la nouvelle économie de l'infrastructure IA
1VentureBeat AI 

Des tokens moins chers, des factures plus élevées : la nouvelle économie de l'infrastructure IA

Le coût d'une inférence IA a chuté d'environ un facteur dix en deux ans, porté par des gains d'efficacité sur les modèles et la concurrence acharnée entre fournisseurs cloud. Pourtant, les factures d'infrastructure des entreprises ne baissent pas : elles augmentent. C'est le paradoxe que décrit Anindo Sengupta, vice-président produits chez Nutanix : si le coût par token diminue d'un ordre de grandeur, la consommation, elle, a bondi de plus de 100 fois sur la même période. Résultat, les équipes IT se retrouvent à gérer des volumes d'inférence que rien ne laissait prévoir il y a deux ans, et des budgets GPU qui s'envolent malgré des prix unitaires en chute libre. Ce que les économistes appellent le paradoxe de Jevons se matérialise ici très concrètement : une ressource moins chère incite à en consommer davantage, jusqu'à dépasser les économies réalisées. L'essor de l'IA agentique amplifie le phénomène. Chaque assistant IA déployé en entreprise, chaque workflow automatisé, chaque pipeline d'agents génère en continu des milliers de requêtes d'inférence courtes et imprévisibles, très éloignées des gros jobs de training planifiés à l'avance. Ces flux bombardent les GPU, saturent les interconnexions réseau et sollicitent des systèmes de stockage conçus pour des charges stables. Le coût par token et le taux d'utilisation GPU deviennent ainsi des métriques opérationnelles de premier plan, au même titre que la disponibilité ou le débit. Les optimiser reste complexe : les variables sont trop nombreuses pour être gérées intuitivement, modèles, localisation des workloads, structure des prompts. Cette rupture expose les limites structurelles des datacenters traditionnels, pensés pour des charges prévisibles et des cycles d'approvisionnement longs. L'infrastructure agentique exige une topologie GPU spécifique, des interconnexions haute vitesse, un stockage parallèle pour les caches KV et la mémoire des agents. Quand GPU, réseau et stockage sont gérés en silos distincts, les inefficacités s'accumulent : les assets GPU coûteux se retrouvent sous-utilisés pendant que le réseau ou le stockage constituent les goulets d'étranglement. Face à cette réalité, les grands acteurs de l'infrastructure, Nutanix en tête, poussent vers des plateformes full-stack intégrées et validées de bout en bout, capables d'optimiser simultanément le calcul, le réseau et le stockage pour les workloads IA en production. L'enjeu n'est plus simplement de déployer de l'IA, mais de la faire tourner à l'échelle sans que les coûts d'infrastructure ne neutralisent les gains de productivité.

UELes DSI européens déployant de l'IA agentique subissent le même effet Jevons : la baisse du coût par token est annulée par l'explosion des volumes d'inférence, rendant l'optimisation de l'infrastructure GPU une priorité budgétaire immédiate.

InfrastructureActu
1 source
Reconstruire la pile de données pour l'IA
2MIT Technology Review 

Reconstruire la pile de données pour l'IA

L'intelligence artificielle occupe désormais le sommet des priorités des directions d'entreprise, mais une réalité s'impose de plus en plus clairement : le principal frein à une adoption concrète n'est pas la technologie elle-même, mais l'état des données. Bavesh Patel, vice-président senior chez Databricks, résume le problème sans détour : "La qualité de l'IA, son efficacité réelle, dépend directement de l'information disponible dans votre organisation." Or dans la grande majorité des entreprises, cette information reste dispersée entre des systèmes hérités, des applications cloisonnées et des formats incompatibles. Sans infrastructure unifiée, les modèles d'IA produisent des résultats peu fiables, dépourvus de contexte, ce que Patel qualifie simplement de "terrible AI". La solution passe par une consolidation des données dans des formats ouverts, une gouvernance rigoureuse des accès, et une architecture capable de combiner données structurées et non structurées en temps réel. L'enjeu est directement compétitif. Pour Patel, "le vrai différenciateur concurrentiel de la plupart des organisations, c'est leur propre data, combinée aux données tierces qu'elles peuvent y ajouter". Les entreprises qui parviennent à poser ces fondations correctement débloquent des gains mesurables : automatisation de workflows complexes, efficacité opérationnelle accrue, voire création de nouvelles lignes de revenus. Rajan Padmanabhan, responsable technologique chez Infosys, insiste sur la nécessité de relier chaque initiative IA à des indicateurs business précis, plutôt que de traiter ces projets comme des expérimentations isolées. Les entreprises les plus avancées utilisent des cadres de gouvernance pour identifier rapidement ce qui produit des résultats concrets et abandonner ce qui n'en produit pas, une discipline que peu d'organisations ont encore intégrée dans leur fonctionnement quotidien. Cette transformation s'inscrit dans un changement de paradigme plus profond. Pendant des décennies, les systèmes d'information ont été conçus comme des outils d'exécution ou d'engagement. Padmanabhan décrit une nouvelle logique en train d'émerger : "des systèmes d'action", capables de décider et d'agir de manière autonome. C'est précisément la promesse des agents IA, qui évoluent de simples assistants vers des opérateurs autonomes gérant des flux de travail et des transactions entières. Mais cette évolution suppose que les données sous-jacentes soient fiables, accessibles et gouvernées, une condition que la plupart des grandes entreprises ne remplissent pas encore. La question n'est donc plus de savoir si l'IA va transformer l'entreprise, mais si les organisations sauront construire l'infrastructure de données nécessaire avant que la fenêtre d'opportunité ne se referme sur celles qui auront avancé plus vite.

InfrastructureOpinion
1 source
3Le Big Data 

NVIDIA Vera : quand le CPU devient le cerveau de l’IA autonome

Le 16 mars 2026, lors de la conférence GTC 2026, Jensen Huang a présenté le processeur CPU Vera, une puce conçue spécifiquement pour l'intelligence artificielle agentique. Architecturé autour de la plateforme Olympus, Vera embarque 88 cœurs personnalisés basés sur la technologie ARM Neoverse, une mémoire SOCAMM en LPDDR6 atteignant une bande passante de 1,2 To/s, et une conception monolithique qui réduit la latence interne au minimum physiquement possible. Contrairement aux GPU Blackwell et Rubin qui gèrent le traitement parallèle massif, Vera prend en charge l'exécution séquentielle et logique : la planification, la vérification, l'enchaînement de décisions. Sa capacité à manipuler des contextes de plusieurs millions de tokens en temps réel en fait un composant radicalement différent des processeurs x86 traditionnels, jugés trop lents pour les exigences actuelles de l'IA. L'enjeu est fondamental pour toute entreprise qui cherche à déployer des agents IA dans des workflows réels. Jusqu'ici, les systèmes d'IA buttaient sur le goulot d'étranglement du raisonnement séquentiel : générer du texte rapidement ne suffit pas pour gérer du code complexe, de la logistique ou de la prise de décision multi-étapes. Vera permet à l'IA de passer d'un outil passif à un collaborateur capable d'orchestrer des tâches sur la durée, de corriger ses propres erreurs et d'enchaîner des raisonnements structurés sans latence perceptible. Pour les développeurs et les entreprises, cela ouvre concrètement la voie à des agents autonomes opérationnels dans des environnements de production exigeants, là où les solutions actuelles restent trop fragiles ou trop lentes. Cette annonce s'inscrit dans une accélération que NVIDIA pilote depuis plusieurs années en construisant une pile matérielle complète pour l'IA. Après avoir dominé l'entraînement des modèles avec ses GPU, puis l'inférence avec la gamme Blackwell, l'entreprise complète aujourd'hui l'architecture avec un CPU qui lui est propre, réduisant sa dépendance aux processeurs Intel et AMD pour les charges de travail IA. Le concept rappelle la distinction cognitive entre Système 1 (rapide, instinctif) et Système 2 (analytique, délibéré) : les GPU couvrent le premier, Vera prend en charge le second. Si l'adoption suit, NVIDIA pourrait imposer une architecture propriétaire de bout en bout pour les data centers orientés agents, ce qui renforcerait encore davantage sa position dominante dans l'infrastructure de l'IA mondiale au moment où la course aux systèmes autonomes s'intensifie chez Google, Microsoft et Meta.

UELes opérateurs de data centers européens déployant des agents IA devront évaluer une migration vers cette architecture propriétaire NVIDIA pour contourner les goulots d'étranglement du raisonnement séquentiel.

💬 Le goulot d'étranglement du raisonnement séquentiel, c'est le truc qui fait ramer les agents en prod depuis 2 ans, et Vera s'attaque frontalement à ça. La distinction Système 1/Système 2 appliquée au silicium, c'est bien vu, pas juste du marketing. Le revers, c'est que si t'as besoin de Vera pour que tes agents tournent vraiment, t'achètes le stack NVIDIA complet, de bout en bout, et ils le savent.

InfrastructureOpinion
1 source
La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi
4Ars Technica AI 

La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi

La startup californienne SPAN, basée à San Francisco, a annoncé un projet inédit : installer de mini-centres de données directement chez des particuliers, sous forme de boîtiers compacts baptisés XFRA nodes. Ces appareils embarquent des GPU Nvidia RTX Pro 6000 Blackwell Server Edition refroidis par liquide, conçus pour fonctionner en silence. En échange de l'espace et de l'électricité, les propriétaires recevraient en contrepartie un accès Internet subventionné, une réduction sur leur facture d'électricité et des batteries de secours. SPAN a déjà commencé des tests pilotes et prévoit un déploiement auprès de 100 foyers d'ici la fin de l'année 2026. L'enjeu est de taille pour l'industrie de l'IA : la demande en puissance de calcul explose, mais construire de nouveaux datacenters classiques prend des années et se heurte à des obstacles réglementaires, fonciers et énergétiques considérables. En distribuant cette infrastructure dans les foyers américains, SPAN espère mobiliser rapidement des capacités de calcul dormantes sans les coûts et délais habituels. Pour les ménages, le modèle ressemble à celui des contrats d'effacement électrique ou des panneaux solaires avec revente de surplus : on cède une ressource inutilisée contre un avantage financier tangible. Chris Lander, vice-président de la division XFRA chez SPAN, résume la promesse ainsi : là où les datacenters traditionnels sont bruyants, disgracieux et font monter les prix de l'électricité dans les quartiers, l'XFRA node serait discret et rendrait l'énergie moins chère pour le foyer et la communauté. Ce type d'approche décentralisée n'est pas sans précédent, des projets comme Filecoin ou Helium ont tenté de monétiser la bande passante ou le stockage résidentiel avec des résultats mitigés. La différence ici réside dans la puissance matérielle déployée et dans l'appétit sans précédent des acteurs de l'IA pour du calcul supplémentaire. Reste à voir si les contraintes pratiques, consommation électrique résiduelle, gestion thermique, responsabilité légale des hôtes, seront surmontées à grande échelle, et si les régulateurs américains valideront ce modèle hybride entre infrastructure industrielle et usage résidentiel.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic