Dossier NVIDIA — page 16

856 articles · page 16 sur 18

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

751VentureBeat AI InfrastructureActu

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber. Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne. La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

Dossier NVIDIA — page 16

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

Nous Research lance Hermes Agent Profile Builder : identité, modèle, compétences et serveurs MCP dans un tableau de bord unique

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable

PhysBrain 1.0 : rapport technique

NavOL : une politique de navigation par apprentissage par imitation en ligne

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Anthropic en négociation pour acheter des puces IA à une startup britannique

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Shengshu Technology lance Motubrain, son modèle monde-action

Oxford va concevoir des solutions robotiques de nouvelle génération pour les sites nucléaires avec AtkinsRéalis

smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3

GS-Playground : un simulateur photoréaliste haute cadence pour l'apprentissage robotique par vision

Exploiter l'agilité des robots hybrides roues-pattes pour l'évitement réflexe d'obstacles à haute dynamique

Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

Planification VLA à horizon étendu par conditionnement sur traces

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

OpenAI affirme à ses investisseurs que son infrastructure lui donne un avantage sur Anthropic

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch

Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Cognichip lève 60 M$ pour confier la conception des puces à l’IA

AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte

Comment installer NemoClaw en 5 minutes : guide pas-à-pas

L'IA peut appuyer sur les boutons de votre Stream Deck à votre place

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Meta recrute une équipe star de l’IA pour créer les assistants du futur

IA dans l’espace : Starcloud veut placer 80 000 satellites datacenters en orbite

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Les avantages de l'IA physique deviennent l'arme secrète de la fabrication

Meta dévoile quatre générations de puces IA maison pour réduire les coûts d'inférence pour des milliards d'utilisateurs

Meta développe 4 nouvelles puces pour alimenter ses systèmes d'IA et de recommandation