Aller au contenu principal

NVIDIA· sujet

512 articlesmis à jour le 2026-05-06

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

Hub d'actualité sur NVIDIA, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

NVIDIA n'est pas un fournisseur dans la guerre IA, c'est l'arsenal. Tous les modèles frontière (GPT-5.5, Claude Mythos, Gemini 3, Mistral Medium 3.5, DeepSeek V4-Pro sur sa partie GPU) tournent sur des GPU NVIDIA. Le partenariat OpenAI/NVIDIA officialisé en avril 2025 chiffre 35× sur le coût par jeton dans le déploiement de GPT-5.5. Mistral lève 722 M€ pour acheter 13 800 GPU NVIDIA. Amazon engage 100 milliards de dollars sur 10 ans avec Anthropic, dont une part substantielle revient à NVIDIA via AWS.

Mais 2026 ouvre les premières fissures dans la rente CUDA. Google TPU v8 défie Blackwell sur la performance entrainement (4 mai 2026). DeepSeek prouve que les puces Huawei Ascend peuvent porter les modèles frontière. NVIDIA Spectrum-X répond avec un réseau Ethernet ouvert dédié IA, devenu référence à grande échelle. La bataille passe du chip à l'écosystème.

Comment lire ce hub

Si vous suivez l'actualité IA au quotidien, c'est votre flux par défaut sur NVIDIA. Toutes les publications agrégées de 72 sources éditoriales (NVIDIA Developer Blog, Le Big Data, MIT Technology Review, ZDNET, Pandaily, etc.).

Si vous arrivez par une recherche, la chronologie remet les épisodes-clés dans leur ordre, les essentiels couvrent les angles puces / partenariats hyperscalers / concurrence Huawei / réseau Ethernet IA.

Hub d'actualité, pas analyse éditoriale

Ce hub agrège et oriente. Quand un sujet NVIDIA mérite une lecture verticale (la rente CUDA face aux alternatives, les arbitrages cloud), c'est dans la section analyses que le format long-form se déploie.

Pourquoi NVIDIA compte

NVIDIA compte parce que c'est l'unique acteur dont la position structurelle dépend de quasi-tous les autres mouvements 2026. Quand OpenAI accélère sur l'agentique, NVIDIA encaisse plus de demande compute. Quand Anthropic s'engage à 100 Md$ AWS, NVIDIA encaisse via Amazon. Quand Mistral lève en France pour 13 800 GPU, NVIDIA encaisse en Europe. La position est tellement transversale qu'il faut la nommer : NVIDIA est devenu un fournisseur monopolistique.

Trois fronts de pression émergent en 2026. Premier : le hardware concurrent. Google TPU v8 défie Blackwell sur l'entrainement, démontre des gains de coût par token comparable. Huawei Ascend porte DeepSeek V4 sans dépendance NVIDIA. Trainium chez Amazon avance lentement mais continument. La part de marché commence à s'effriter par le haut.

Deuxième : la régulation. La Commission européenne et le DOJ américain examinent l'écosystème CUDA comme potentiel verrouillage anti-concurrentiel. Si une décision impose l'ouverture des stacks à des compilateurs alternatifs (ROCm AMD, MAX d'Intel), la rente baisse mécaniquement.

Troisième : la géopolitique. Les contrôles export US restreignent les ventes haute-perf à la Chine. DeepSeek V4 ayant prouvé qu'on peut faire frontière sous embargo, la pression sur NVIDIA pour sécuriser des marges en marchés autorisés s'amplifie. La réponse : Spectrum-X (réseau Ethernet IA), Vera Rubin (CPU), Omniverse (verticalisation logicielle). NVIDIA cherche les angles où la rente reste défendable.

Chronologie

  1. Mar 2024GTC 2024 : Blackwell B200 dévoilé, performance entrainement ×4 vs H100
  2. Sept 2024Premiers Blackwell livrés aux hyperscalers (Microsoft, AWS, Google)
  3. Janv 2025DeepSeek-R1 provoque la première chute de NVIDIA en bourse — révèle l'efficacité chinoise
  4. Mar 2025GTC 2025 : Vera Rubin GPU + Vera CPU, roadmap 2026-2027
  5. Avr 2025Partenariat OpenAI / NVIDIA officialisé : 35× sur le coût par jeton sur GPT-5.5
  6. Mar 2026Le proxy IA populaire LiteLLM infecté par un malware se propage dans les clusters Kubernetes équipés NVIDIA
  7. 30 mar 2026Mistral lève 722 M€ pour acheter 13 800 GPU NVIDIA — première gigafactory GPU française
  8. 21 avr 2026Amazon engage 33 Md$ dans Anthropic + 100 Md$ AWS sur 10 ans — substantielle part vers NVIDIA via AWS
  9. 4 mai 2026Google TPU v8 défie NVIDIA Blackwell : première menace concurrentielle crédible sur l'entrainement frontière
  10. 6 mai 2026NVIDIA Spectrum-X (réseau Ethernet ouvert pour IA) s'impose comme référence à grande échelle

Cinq articles essentiels

Sélection éditoriale. Ces cinq pièces couvrent les angles les plus utiles pour comprendre NVIDIA en 2026.

  1. Google TPU v8 défie NVIDIA Blackwell : première menace concurrentielle crédible sur l'entrainement frontière depuis 2024.

  2. NVIDIA Spectrum-X s'impose comme référence à grande échelle : la riposte par l'écosystème, pas seulement par le silicium.

  3. Mistral lève 722 M€ pour 13 800 GPU NVIDIA : la souveraineté européenne reste structurellement dépendante de l'arsenal américain.

  4. Amazon engage 33 Md$ dans Anthropic + 100 Md$ AWS sur 10 ans : substantielle part vers NVIDIA via la chaîne AWS.

  5. Le proxy IA LiteLLM infecté par un malware se propage dans les clusters Kubernetes équipés NVIDIA : la surface d'attaque dans la stack agentique inclut maintenant l'orchestration GPU.

  6. Mistral lève 830 M$ pour son centre de données IA : la deuxième jambe française de la stratégie infrastructure souveraine, NVIDIA-dépendante.

Analyses long-form sur NVIDIA

Quand un sujet mérite un format long, c'est ici.

Questions fréquentes

Quel est le dernier GPU IA de NVIDIA en 2026 ?

Blackwell B200 (lancé en septembre 2024) reste la production volume haute-performance. Vera Rubin (la génération suivante) est annoncée pour 2026-2027 avec des gains attendus ×3 sur l'entrainement et ×5 sur l'inférence. Vera CPU complète l'offre côté processeur hôte. La roadmap a été présentée à GTC 2025.

Combien NVIDIA contrôle-t-elle du marché GPU IA ?

Estimations 2026 : ~85-90 % du marché GPU IA datacenter (en valeur), avec des concurrents qui montent (Google TPU pour usage interne, AMD Instinct pour HPC, Huawei Ascend en Chine, Trainium chez AWS). La part de marché en volume est en baisse depuis la sortie du TPU v8 et de Huawei Ascend porteur de DeepSeek.

NVIDIA est-elle exposée aux contrôles export américains ?

Oui. Les ventes haute-performance à la Chine sont restreintes depuis 2022 et l'embargo s'est durci en 2024-2025. NVIDIA propose des versions bridées (H800, A800) pour le marché chinois mais Pékin a poussé l'industrie nationale vers Huawei Ascend. La perte de revenus chinois est réelle mais compensée par la demande hyperscaler US/UE/JP.

CUDA est-il toujours un avantage concurrentiel ?

Oui, mais l'avantage s'érode. CUDA reste le standard de fait pour le développement IA (utilisé par PyTorch, TensorFlow, JAX en backend optimisé), mais les concurrents ouvrent : ROCm chez AMD, MAX chez Intel, alternatives open-source. Le verrouillage logiciel est plus durable que le verrouillage hardware mais finit par ouvrir aussi.

NVIDIA peut-elle être attaquée par des régulateurs ?

C'est étudié. La Commission européenne et le DOJ américain examinent l'écosystème CUDA comme potentiel verrouillage anti-concurrentiel. Pas d'enquête formelle ouverte en mai 2026, mais les plaintes des concurrents (AMD, Intel) et des hyperscalers cherchant à diversifier (Microsoft, Google) augmentent. Une décision DMA-like serait structurelle pour la rente.

Toute l'actualité NVIDIA

Flux automatique. Articles classés par pertinence, agrégés en continu.

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA
1NVIDIA AI Blog OutilsOutil

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

À l'occasion de Google I/O 2026, NVIDIA et Google Cloud ont annoncé une série de nouvelles ressources pour leur communauté de développeurs commune, qui regroupe désormais plus de 100 000 membres. Lancée lors de Google I/O l'année précédente, cette communauté réunit développeurs, data scientists et ingénieurs en machine learning autour de l'écosystème NVIDIA sur Google Cloud. Parmi les nouveautés dévoilées cette année : un parcours d'apprentissage dédié à la bibliothèque JAX sur GPU NVIDIA, un codelab centré sur NVIDIA Dynamo pour l'optimisation de l'inférence, ainsi que des livestreams mensuels. Les développeurs peuvent désormais déployer des applications multi-agents en combinant les modèles ouverts Gemma 4 de Google DeepMind, les modèles NVIDIA Nemotron et le Google Agent Development Kit, sur des machines virtuelles G4 de Google Cloud équipées de GPU NVIDIA RTX PRO 6000 Blackwell, via Google Cloud Run ou des instances spot. Le nouveau parcours JAX et le codelab NVIDIA Dynamo sur GKE seront disponibles le mois prochain pour les membres de la communauté. Ces annonces ont un impact direct pour les équipes techniques qui cherchent à passer du prototype à la production rapidement. En combinant des modèles ouverts, des bibliothèques accélérées comme cuDF dans Google Colab Enterprise ou Dataproc, et une infrastructure GPU de dernière génération, les développeurs disposent d'un pipeline complet pour construire des applications d'IA prêtes pour la production : des systèmes RAG (retrieval-augmented generation) sur GKE aux pipelines de données d'entreprise en passant par l'analyse sportive. La collaboration sur JAX, framework de calcul numérique utilisé notamment par Google DeepMind pour l'entraînement de grands modèles, étend ces optimisations jusqu'à la plateforme Google Cloud AI Hypercomputer et au framework MaxText, permettant de passer d'expériences sur un seul GPU à des déploiements multi-rack avec une expérience cohérente. L'un des volets les plus significatifs du partenariat concerne l'IA responsable : NVIDIA est le premier partenaire industriel à avoir collaboré avec Google DeepMind sur SynthID, une technologie de tatouage numérique qui intègre des filigranes robustes directement dans les contenus générés par l'IA. Cette technologie est appliquée aux modèles Cosmos de NVIDIA, des modèles de fondation dédiés à la perception 3D et à la simulation pour robots et systèmes autonomes, disponibles sur build.nvidia.com. Dans un contexte où les agents IA combinent de plus en plus modèles propriétaires et open source pour raisonner et agir de manière autonome, cette couche de transparence devient un enjeu central pour la confiance des organisations qui déploient ces systèmes à grande échelle.

UELa technologie SynthID de filigrane numérique, développée avec Google DeepMind et intégrée aux modèles NVIDIA, répond directement aux obligations de transparence de l'AI Act européen sur les contenus générés par IA (Article 50).

1 source
La technologie de tatouage numérique SynthID de Google adoptée par OpenAI, Nvidia et d'autres
2Ars Technica AI 

La technologie de tatouage numérique SynthID de Google adoptée par OpenAI, Nvidia et d'autres

Google a annoncé que sa technologie de marquage SynthID, développée pour identifier les contenus générés par intelligence artificielle, est désormais adoptée par des acteurs majeurs du secteur, dont OpenAI et Nvidia. Lancée il y a trois ans, SynthID a déjà permis de labelliser 100 milliards d'images et de vidéos, ainsi que l'équivalent de 60 000 ans d'audio. Ce déploiement massif s'accélère avec l'ouverture de la technologie à des partenaires extérieurs à Google. Parallèlement, Google renforce son engagement envers le standard C2PA, une norme qui intègre des métadonnées dans les fichiers pour décrire leur mode de création. Les smartphones Pixel 10 sont les premiers à embarquer C2PA nativement : chaque photo prise avec l'appareil contient des informations sur son traitement, et les images comportant des éléments génératifs sont automatiquement taguées. Cette fonctionnalité sera étendue aux vidéos des Pixel 8, 9 et 10 dans les prochaines semaines. L'enjeu est considérable à une époque où les deepfakes et les contenus synthétiques atteignent un niveau de réalisme qui rend leur détection impossible à l'œil nu. Là où l'on repérait autrefois facilement une IA aux doigts en trop sur une image, les générateurs actuels produisent des visuels indiscernables du réel. SynthID répond à ce problème en inscrivant un filigrane numérique imperceptible directement dans le contenu, sans dégrader sa qualité. L'adoption par OpenAI et Nvidia élargit significativement la portée de cette solution, couvrant potentiellement une part croissante des contenus IA produits à l'échelle mondiale. Google intègre également ces capacités dans ses propres produits : Gemini sera bientôt capable d'analyser la provenance d'un fichier en s'appuyant sur les métadonnées C2PA, et cette même fonctionnalité arrivera dans Chrome et Google Search dans quelques mois. Cette stratégie à deux niveaux, SynthID pour le marquage invisible, C2PA pour les métadonnées explicites, positionne Google comme un acteur central dans la bataille pour la traçabilité des contenus à l'ère de l'IA générative, un sujet qui mobilise régulateurs, plateformes et sociétés civiles autour du monde.

UEL'adoption massive de SynthID et du standard C2PA par les grands acteurs de l'IA facilite la conformité des plateformes européennes aux exigences de traçabilité et de transparence des contenus imposées par l'AI Act.

SécuritéOpinion
1 source
Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia
3The Information AI 

Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia

Les puces Trainium d'Amazon commencent à séduire les développeurs d'intelligence artificielle, marquant une étape importante dans la stratégie du géant du cloud pour concurrencer Nvidia. Anthropic et OpenAI, qui ont conclu des accords d'investissement et d'infrastructure de plusieurs milliards de dollars avec Amazon, se sont déjà engagés à louer de grandes quantités de capacité Trainium, aussi bien les générations actuelles que futures. Des améliorations logicielles récentes ont en outre convaincu une demi-douzaine de développeurs plus modestes, selon des personnes qui utilisent ou travaillent avec ces puces, d'envisager de transférer davantage de leurs charges de travail vers cette architecture propriétaire d'AWS. Ce changement de perception est significatif pour l'industrie. Nvidia contrôle aujourd'hui plus de 80 % du marché des puces d'entraînement d'IA, ce qui lui confère un pouvoir de fixation des prix considérable. Si Amazon parvient à convaincre même une fraction des développeurs de basculer vers Trainium, cela pourrait réduire la dépendance structurelle de l'écosystème IA envers un seul fournisseur et faire pression sur les marges exceptionnelles de Nvidia. Amazon développe ses propres siliciums depuis plusieurs années, après le rachat d'Annapurna Labs en 2015. La stratégie repose sur l'intégration verticale : proposer des puces optimisées pour les services AWS, avec des prix potentiellement inférieurs à ceux des GPU H100 et H200 de Nvidia. L'adhésion d'acteurs aussi stratégiques qu'Anthropic, dans lequel Amazon a investi plus de 4 milliards de dollars, constitue à la fois une validation technique et un levier commercial pour attirer d'autres clients vers l'écosystème Trainium.

UELes développeurs et entreprises européennes hébergés sur AWS pourraient bénéficier d'une alternative moins coûteuse aux GPU Nvidia si l'adoption de Trainium se généralise, réduisant la dépendance structurelle de l'écosystème IA à un unique fournisseur de silicium.

💬 Quand Anthropic et OpenAI "adoptent" Trainium, faut garder en tête qu'Amazon leur a mis des milliards sur la table, donc c'est une validation arrangée autant que technique. Ce qui compte vraiment, c'est la demi-douzaine de développeurs indépendants qui commencent à y basculer des workloads pour des raisons de coût, sans deal en arrière-plan. C'est ce signal-là qui a du poids.

InfrastructureOpinion
1 source
L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu
4AI News 

L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu

Donald Trump s'est rendu à Pékin en mai 2026, accompagné à la dernière minute de Jensen Huang, PDG de Nvidia, et en est reparti en déclarant que "quelque chose pourrait se passer" sur les exportations de puces. Rien ne s'est passé. Pas un seul H200 de Nvidia n'a été livré en Chine depuis que Trump a autorisé ces ventes en décembre 2025. Le représentant américain au commerce, Jamieson Greer, a confirmé à Bloomberg que les contrôles sur les semi-conducteurs n'étaient même pas à l'ordre du jour bilatéral. En réalité, les licences d'exportation existent déjà : une dizaine d'entreprises chinoises, dont Alibaba, Tencent, ByteDance et JD.com, disposent chacune d'autorisations américaines pour jusqu'à 75 000 unités, avec Lenovo et Foxconn comme distributeurs agréés. Les puces ne bougent pas parce que c'est Pékin qui bloque ses propres entreprises. Le blocage repose sur une contradiction réglementaire structurelle. Les règles américaines exigent que les H200 exportés vers des clients chinois soient déployés uniquement sur le territoire chinois. Pékin, de son côté, a ordonné à ses grandes entreprises tech de réserver leurs achats de puces Nvidia à leurs opérations à l'étranger, tout en soutenant les fournisseurs domestiques. Les deux exigences s'excluent mutuellement : les puces autorisées à l'export ne peuvent légalement être déployées là où Pékin veut les déployer. Ce n'est pas une impasse accidentelle. Le secrétaire au Commerce Howard Lutnick a déclaré devant le Sénat que les firmes chinoises cherchent délibérément à concentrer leurs investissements sur les fournisseurs locaux, au premier rang desquels Huawei. Le Conseil d'État chinois a par ailleurs lancé une revue de la sécurité des chaînes d'approvisionnement visant à réduire la dépendance aux semi-conducteurs américains. Pendant que les diplomates négociaient, les données les plus significatives venaient d'ailleurs. DeepSeek a confirmé que son dernier modèle avait été optimisé pour tourner sur les processeurs Huawei. Le directeur stratégique de Tencent a annoncé que l'offre chinoise en GPU augmenterait progressivement tout au long de 2026, et Alibaba a confirmé que ses GPU propriétaires T-Head étaient désormais en production de masse. En avril, DeepSeek V4 était devenu le premier grand modèle frontier chinois adapté aux puces Ascend de Huawei dès la phase d'entraînement, et non plus seulement pour l'inférence. Le signal est clair : la substitution n'est plus expérimentale, elle est devenue une politique industrielle. Les revenus de Nvidia en Chine sont tombés à environ 5 % ces derniers trimestres, contre plus de 20 % avant le durcissement des contrôles à l'export, et la société anticipe désormais zéro revenu chinois pour le trimestre en cours. La présence de Huang à Pékin illustrait l'urgence ressentie par Nvidia ; son résultat illustre les limites de la diplomatie de PDG face à un blocage structurel.

UEL'impasse sino-américaine sur les GPU Nvidia accélère la montée en puissance d'alternatives chinoises (Huawei Ascend) et rappelle à l'Europe sa propre dépendance aux chaînes d'approvisionnement américaines, renforçant l'urgence de l'European Chips Act.

💬 Jensen Huang à Pékin avec Trump, et au final zéro H200 livré : la mise en scène était parfaite, le résultat nul. Ce qui est frappant, c'est que le blocage ne vient pas de Washington cette fois, ce sont les Chinois eux-mêmes qui freinent leurs propres entreprises pour les forcer vers Huawei. Pendant ce temps, DeepSeek optimisait sur Ascend et Alibaba lançait ses GPU en masse : la substitution n'est plus un plan B, c'est le plan A.

InfrastructureOpinion
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
5NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
6MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
7MarkTechPost 

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4. Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée. Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

UELes chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

CréationOpinion
1 source
Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire
8Frandroid 

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

Nvidia a franchi ce mercredi 13 mai 2026 le seuil des 5 500 milliards de dollars de capitalisation boursière, un record absolu dans l'histoire des marchés financiers. Jamais aucune entreprise n'avait atteint une telle valorisation. Pour mettre ce chiffre en perspective, Nvidia pèse désormais plus d'une fois et demie le PIB annuel de la France, qui s'établit autour de 3 200 milliards de dollars. Le groupe californien, fondé par Jensen Huang, s'est imposé comme le fournisseur incontournable de puces GPU utilisées pour entraîner et faire tourner les modèles d'intelligence artificielle. Cette valorisation record illustre l'appétit insatiable des marchés pour tout ce qui touche à l'IA générative. Nvidia capte une part écrasante des dépenses d'infrastructure des géants technologiques, Microsoft, Google, Amazon, Meta, qui investissent des centaines de milliards de dollars dans leurs datacenters. Ses puces H100, H200 et Blackwell sont en rupture chronique depuis deux ans, ce qui confère à l'entreprise un pouvoir de fixation des prix exceptionnel et des marges brutes dépassant 70 %. Nvidia a profité d'une longueur d'avance stratégique grâce à CUDA, son écosystème logiciel développé depuis 2006, qui a rendu ses GPU quasi indétrônables dans la recherche et l'industrie IA. Ses concurrents, AMD et Intel côté puces, ou les solutions maison de Google (TPU) et Amazon (Trainium), peinent encore à rogner sa domination. La question qui se pose désormais est de savoir si cette croissance est soutenable, ou si un ralentissement des investissements en IA pourrait provoquer une correction aussi spectaculaire que l'ascension.

UELes startups et entreprises européennes développant des solutions IA restent structurellement dépendantes des puces Nvidia, dont les prix élevés et la pénurie chronique renchérissent le coût d'accès à l'infrastructure IA sur le marché européen.

InfrastructureOpinion
1 source
Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark
9NVIDIA AI Blog 

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

Hermes Agent, le nouveau framework d'agents IA développé par Nous Research, a franchi les 140 000 étoiles sur GitHub en moins de trois mois et s'est imposé la semaine dernière comme l'agent le plus utilisé au monde selon OpenRouter. Conçu pour fonctionner en local et en continu, il est optimisé pour tourner sur les GPU NVIDIA RTX, les stations de travail RTX PRO et les machines DGX Spark. Sa particularité principale est sa capacité d'auto-amélioration : à chaque tâche complexe ou retour utilisateur, Hermes enregistre ses apprentissages sous forme de compétences réutilisables, ce qui lui permet de s'améliorer au fil du temps sans intervention humaine. Il intègre également une architecture de sous-agents isolés, chacun dédié à une sous-tâche précise, ce qui réduit la confusion, minimise la taille des fenêtres de contexte nécessaires et rend le système plus fiable sur des modèles de 30 milliards de paramètres. Nous Research teste et valide chaque outil embarqué, ce qui distingue Hermes de la plupart des frameworks concurrents qui exigent un débogage constant. En parallèle, Alibaba a lancé la série Qwen 3.6, dont les modèles de 27 et 35 milliards de paramètres surpassent les versions précédentes de 120 et 400 milliards de paramètres, tout en nécessitant respectivement environ 20 Go de mémoire au lieu de 70 Go ou plus. L'enjeu est considérable : pour la première fois, des agents IA capables de s'auto-améliorer, de planifier des tâches multi-étapes et d'agir de façon autonome en continu deviennent accessibles sur du matériel grand public ou de gamme professionnelle. Un développeur ou une PME peut désormais faire tourner un agent équivalent à ce qui nécessitait autrefois un datacenter, grâce à des GPU comme le RTX 5090 ou une machine compacte comme le DGX Spark, qui offre 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Les Tensor Cores NVIDIA réduisent le temps d'inférence de minutes à secondes, rendant les workflows autonomes viables à l'échelle d'une journée de travail complète. Cette convergence entre frameworks open source matures et modèles locaux ultra-compressés marque une rupture dans la démocratisation de l'IA agentique. Jusqu'ici, les agents performants dependaient de l'API d'OpenAI ou d'Anthropic, avec les coûts et les questions de confidentialité que cela implique. La montée en puissance de modèles open weight comme Qwen 3.6, combinée à des frameworks comme Hermes qui rivalisent avec les solutions propriétaires sur des benchmarks identiques, repositionne le matériel local comme infrastructure stratégique. NVIDIA profite directement de cette tendance en poussant le DGX Spark comme poste de travail dédié à l'IA agentique permanente, un segment encore embryonnaire mais en croissance rapide à mesure que les entreprises cherchent à internaliser leurs pipelines d'IA.

OutilsOutil
1 source
NVIDIA et SAP renforcent la fiabilité des agents spécialisés
10NVIDIA AI Blog 

NVIDIA et SAP renforcent la fiabilité des agents spécialisés

NVIDIA et SAP ont annoncé lors de la conférence SAP Sapphire un renforcement significatif de leur collaboration autour des agents IA autonomes en entreprise. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu par vidéo lors du discours d'ouverture de Christian Klein, PDG de SAP. Le coeur de l'annonce : SAP intègre NVIDIA OpenShell, un runtime open source conçu pour déployer des agents IA autonomes de manière sécurisée, directement dans sa SAP Business AI Platform. Les ingénieurs SAP participent désormais au développement de ce projet open source aux côtés de ceux de NVIDIA. OpenShell fournit des environnements d'exécution isolés, applique des politiques au niveau du système de fichiers et du réseau, et assure une containérisation au niveau de l'infrastructure pour limiter les dégâts en cas de défaillance de la logique d'un agent. Il devient ainsi la couche de sécurité d'exécution pour l'ensemble des agents SAP, y compris ceux créés dans Joule Studio, l'environnement de SAP dédié à la construction et gestion d'agents d'entreprise bout en bout. Ce partenariat répond à un défi concret : quand un agent IA peut accéder à des systèmes critiques, traverser les frontières applicatives et agir sans validation humaine à chaque étape, les entreprises ont besoin de garanties solides avant de le déployer en production. La différence entre un assistant IA et un agent autonome, c'est précisément cette capacité à agir sans supervision constante, ce qui exige des contrôles stricts sur ce que l'agent peut voir, faire, et tracer. Pour des domaines comme la finance, les achats, la supply chain ou la fabrication, où SAP pilote les opérations de milliers d'entreprises mondiales, les enjeux de conformité et de gouvernance sont particulièrement élevés. OpenShell répond à la question « cette action peut-elle s'exécuter en sécurité ? », tandis que la couche de contrôle de Joule Studio répond à « cette action doit-elle avoir lieu du tout ? » SAP occupe une position stratégique dans l'écosystème IA d'entreprise : ses systèmes hébergent les données de référence des processus financiers, logistiques et opérationnels de nombreuses grandes organisations mondiales. NVIDIA est lui-même client SAP pour ses propres opérations financières et supply chain, ce qui donne aux deux entreprises une compréhension commune des exigences de gouvernance en conditions réelles. Pour accélérer le développement d'agents personnalisés, NVIDIA NemoClaw, un plan de référence pour construire et déployer des agents autonomes, sera disponible directement dans Joule Studio, offrant aux équipes de développement un chemin structuré du prototype au déploiement sécurisé en production. Cette collaboration illustre une tendance de fond dans l'industrie : la course à l'adoption des agents IA autonomes passe désormais par la confiance, et c'est au niveau de la couche applicative que se joue l'essentiel de la bataille.

UESAP, entreprise européenne leader des ERP, intègre des couches de sécurité pour agents IA autonomes dans sa plateforme Business AI, ce qui concerne directement les grandes organisations françaises et européennes utilisant SAP pour leurs processus financiers et opérationnels.

OutilsActu
1 source
NVIDIA a déjà investi 40 milliards de dollars dans des accords IA en 2026
11Le Big Data 

NVIDIA a déjà investi 40 milliards de dollars dans des accords IA en 2026

En à peine cinq mois depuis le début de l'année 2026, NVIDIA a engagé plus de 40 milliards de dollars dans des accords liés à l'intelligence artificielle. L'investissement le plus massif reste une mise de 30 milliards de dollars dans OpenAI, le créateur de ChatGPT. Le groupe a également conclu un accord pouvant atteindre 2,1 milliards de dollars avec IREN, opérateur de centres de données, pour déployer 5 gigawatts d'infrastructures NVIDIA DSX. Quelques jours plus tôt, c'est Corning qui annonçait un partenariat à hauteur de 3,2 milliards de dollars pour construire trois usines dédiées aux technologies optiques. En mars, NVIDIA avait aussi investi 2 milliards dans Marvell Technology, ainsi que dans les spécialistes de la photonique Lumentum et Coherent. Dans le cloud IA, le groupe soutient les néoclouds CoreWeave et Nebius Group avec 2 milliards chacun. Au total, Jensen Huang dirige une entreprise valorisée à environ 5 200 milliards de dollars, dont l'action a été multipliée par plus de 11 en quatre ans. Cette stratégie va bien au-delà de la simple diversification financière : NVIDIA cherche à contrôler l'ensemble de la chaîne de valeur de l'IA, des puces jusqu'aux infrastructures qui les font tourner. En finançant les fournisseurs cloud, les opérateurs de data centers, les fabricants de composants optiques et les grandes startups IA, le groupe s'assure que chaque maillon de l'écosystème dépend de ses technologies. Jensen Huang l'a lui-même résumé en déclarant vouloir "soutenir tout le monde" plutôt que "désigner un seul gagnant", une posture qui lui permet de couvrir plusieurs scénarios concurrentiels à la fois. Le groupe a généré 97 milliards de dollars de free cash flow en 2025, ce qui rend ce rythme d'investissement soutenable à court terme. Cette mécanique suscite néanmoins des inquiétudes croissantes à Wall Street. Plusieurs analystes pointent une logique circulaire potentiellement fragile : NVIDIA investit dans des entreprises qui achètent ses GPU pour construire leurs infrastructures, et leur fournit parfois directement des ressources de calcul. Certains observateurs comparent cette boucle à une bulle auto-entretenue. La domination de NVIDIA sur le marché des puces IA est le fruit de l'explosion de l'IA générative depuis 2022, mais la concurrence monte, avec AMD, Intel et les puces propriétaires développées par Google, Amazon et Microsoft. La capacité du groupe à maintenir sa position dominante tout en tissant ce réseau d'alliances financières déterminera si cette stratégie est un masterstroke industriel ou un risque systémique pour l'ensemble de l'écosystème IA mondial.

UELa stratégie d'intégration verticale de NVIDIA renforce sa domination sur l'ensemble de la chaîne IA mondiale, accentuant la dépendance des acteurs européens vis-à-vis des infrastructures et puces américaines.

InfrastructureOpinion
1 source
OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA
12The Decoder 

OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA

OpenAI a annoncé la mise au point du protocole réseau MRC en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA. Ce protocole open source permet de transmettre des données simultanément sur des centaines de chemins entre les GPU, là où les architectures traditionnelles n'en empruntent qu'un à la fois. Là où les infrastructures classiques nécessitent trois ou quatre couches de commutateurs réseau pour relier des dizaines de milliers de puces, MRC n'en requiert que deux pour interconnecter plus de 100 000 GPU. Le protocole est déjà opérationnel sur le supercalculateur Stargate d'OpenAI. Cette simplification de l'architecture réseau a des conséquences directes sur les coûts et la consommation d'énergie des centres de données d'IA. Supprimer une à deux couches de commutateurs représente une économie substantielle en matériel, en câblage et en électricité, à une époque où les dépenses en infrastructure IA atteignent des dizaines de milliards de dollars par an. Pour les opérateurs de supercalculateurs, cette approche permet d'atteindre des échelles inédites tout en maîtrisant la facture énergétique, un enjeu majeur alors que la consommation des data centers est de plus en plus scrutée. Le projet Stargate, dont les investissements annoncés dépassent 500 milliards de dollars sur plusieurs années, illustre l'ambition d'OpenAI de bâtir sa propre infrastructure de calcul à très grande échelle. La création d'un protocole open source, développé en consortium avec les principaux fabricants de semi-conducteurs et Microsoft, signale une volonté de standardiser les communications entre GPU à l'échelle des supercalculateurs modernes. En ouvrant MRC, OpenAI mise sur une adoption large qui pourrait en faire un standard de fait pour l'industrie.

UELe protocole MRC pourrait réduire la consommation énergétique des supercalculateurs IA, un enjeu directement encadré par la réglementation européenne sur l'efficacité énergétique des centres de données.

💬 Enlever une à deux couches de commutateurs sur 100 000 GPU, ça veut dire des centaines de millions en matériel et en électricité économisés, pas un détail à cette échelle. Ce qui me frappe, c'est qu'OpenAI ouvre le protocole en consortium avec AMD, Broadcom, Intel et NVIDIA, plutôt que de le garder propriétaire. La stratégie est lisible : faire de MRC un standard de fait avant que quelqu'un d'autre s'y colle.

InfrastructureOpinion
1 source
Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
13Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte
14NVIDIA Developer Blog 

BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte

NVIDIA a annoncé une avancée majeure dans son framework BioNeMo avec l'intégration du parallélisme de contexte, une technique permettant de distribuer le traitement de longues séquences biologiques sur plusieurs GPU simultanément. Pendant des décennies, la biologie computationnelle s'était heurtée à une contrainte fondamentale : la mémoire limitée d'un seul GPU obligeait les chercheurs à fragmenter les protéines complexes en sous-unités isolées pour les modéliser. BioNeMo franchit désormais ce seuil en permettant le repliement de protéines entières et de complexes moléculaires sans découpage préalable, ce que les spécialistes appellent le repliement "zero-shot". L'impact est direct pour les laboratoires pharmaceutiques et les équipes de biologie structurale : modéliser des protéines longues ou des assemblages multi-chaînes avec précision, sans sacrifier la cohérence structurelle liée à la fragmentation artificielle. Le "fossé de contexte", cet angle mort où les grandes molécules devenaient inaccessibles aux modèles d'IA faute de mémoire, disparaît avec cette approche, ouvrant la voie à des prédictions structurelles bien plus fidèles à la réalité cellulaire. Cette évolution s'inscrit dans la course que se livrent les grands acteurs technologiques pour dominer la biologie computationnelle à l'ère de l'IA. NVIDIA positionne BioNeMo comme la plateforme de référence pour les modèles de fondation biomoléculaires, face à des concurrents comme DeepMind avec AlphaFold ou Evo de Arc Institute. Le parallélisme de contexte, déjà éprouvé dans la formation de grands modèles de langage via Megatron-LM, est ici adapté aux spécificités des séquences biologiques, signal fort que les techniques d'entraînement LLM migrent activement vers les sciences du vivant.

UELes laboratoires pharmaceutiques et instituts de recherche européens (Sanofi, Institut Pasteur, universités de médecine) pourraient bénéficier d'une modélisation protéique plus précise et sans fragmentation, accélérant potentiellement la découverte de médicaments et la recherche biomédicale.

RecherchePaper
1 source
NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart
15AWS ML Blog 

NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA vient de rendre disponible son modèle Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart, avec une mise en ligne dite "day zero", soit le jour même du lancement officiel. Ce modèle de langage multimodal open source repose sur une architecture hybride Mamba2 Transformer avec Mixture of Experts (MoE), affichant 30 milliards de paramètres au total dont seulement 3 milliards actifs (architecture dite 30B A3B). Il intègre trois composants spécialisés : Nemotron 3 Nano LLM comme colonne vertébrale linguistique, CRADIO v4-H pour l'encodage visuel (images et vidéos), et Parakeet pour la transcription et la compréhension audio. Le modèle accepte des vidéos jusqu'à 2 minutes (256 images maximum), des fichiers audio jusqu'à 1 heure, des images JPEG et PNG, ainsi que du texte sur une fenêtre de contexte de 131 000 tokens. Il prend en charge le raisonnement en chaîne de pensée, les appels d'outils, la sortie JSON et les horodatages au niveau du mot pour la transcription. Disponible en précision FP8 sur SageMaker JumpStart, il est commercialisé sous la licence NVIDIA Open Model Agreement. L'apport concret de Nemotron 3 Nano Omni réside dans sa capacité à traiter vidéo, audio, images et texte en une seule passe d'inférence, là où les architectures actuelles empilent plusieurs modèles distincts pour chaque modalité. Cette fragmentation classique multiplie les allers-retours d'inférence, complique l'orchestration des pipelines, fragmente le contexte entre modalités et fait croître les coûts et les points de défaillance. En fonctionnant comme un sous-agent de perception unifié au sein d'un système d'agents, le modèle offre simultanément vision, ouïe et compréhension textuelle dans une même boucle de raisonnement. Les cas d'usage ciblés incluent les agents de contrôle d'interfaces graphiques, l'analyse documentaire, contrats, états financiers, rapports scientifiques, ainsi que la surveillance audio et vidéo pour le service client ou la recherche. Ce lancement s'inscrit dans une dynamique plus large de convergence des architectures multimodales, où les grands fournisseurs cherchent à réduire la complexité des systèmes agentiques d'entreprise. NVIDIA, historiquement dominant sur le matériel GPU, renforce ici sa présence sur la couche modèle avec une offre ouverte et commercialement exploitable, accessible directement via SageMaker JumpStart, la plateforme de déploiement géré d'Amazon Web Services. Cette disponibilité immédiate dans l'écosystème AWS facilite l'adoption pour les entreprises sans nécessiter de configuration d'infrastructure propre. La tendance vers des modèles unifiés capables de percevoir et raisonner sur plusieurs modalités simultanément devrait s'accélérer, à mesure que les architectures agentiques complexes cherchent à réduire latence, coûts et friction opérationnelle.

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace
16NVIDIA Developer Blog 

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

NVIDIA a dévoilé Nemotron-N-Nano-3B-Omni, un modèle multimodal compact capable de traiter simultanément du texte, des images, des vidéos et de l'audio au sein d'une seule architecture unifiée. Conçu pour l'inférence efficace, ce modèle de 3 milliards de paramètres est publié en open weights, ce qui permet à n'importe quel développeur de le télécharger, le modifier et le déployer sans dépendre des serveurs NVIDIA. Il prend en charge le raisonnement agentique, c'est-à-dire la capacité à enchaîner des perceptions et des actions dans une boucle autonome, couvrant aussi bien l'analyse de documents que l'interprétation d'écrans ou la compréhension vocale. L'intérêt principal de ce modèle réside dans sa conception monolithique : là où les systèmes agentiques actuels assemblent des chaînes de modèles spécialisés distincts pour la vision, l'audio et le texte, Nemotron Nano Omni gère l'ensemble dans un seul passage d'inférence. Cela réduit significativement la latence, la complexité d'orchestration et le coût de calcul, tout en maintenant une cohérence contextuelle entre les modalités. Pour les entreprises qui déploient des agents IA en production, c'est une réduction directe de la facture cloud et des points de défaillance. Ce lancement s'inscrit dans la stratégie plus large de NVIDIA de dominer non seulement le matériel GPU, mais aussi la couche logicielle et les modèles fondamentaux pour l'IA d'entreprise. La série Nemotron, qui comprend également des modèles plus grands comme Nemotron-4, vise à offrir des alternatives performantes aux modèles propriétaires d'OpenAI ou d'Anthropic. Avec la montée en puissance des agents autonomes capables d'interagir avec des interfaces graphiques, des fichiers et des flux audio, un modèle omnimodal efficace et ouvert représente une brique stratégique pour la prochaine génération d'assistants et d'automatisations.

UELes développeurs et entreprises européennes peuvent déployer cet agent IA multimodal open weights directement sur leur propre infrastructure, réduisant la dépendance aux API cloud américaines et renforçant la souveraineté numérique.

NVIDIA et Google réduisent les coûts d'inférence en IA
17AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs
18VentureBeat AI 

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

Google a dévoilé mardi soir sa huitième génération de puces TPU (Tensor Processing Units) lors d'une présentation privée au F1 Plaza de Las Vegas. Contrairement aux générations précédentes, cette fois Google lance deux puces distinctes : le TPU 8t, conçu pour l'entraînement de grands modèles d'IA, et le TPU 8i, taillé pour l'inférence agentique à faible latence. Le TPU 8t affiche 2,8 fois les EFlops FP4 par pod par rapport à la génération précédente (121 contre 42,5), double la bande passante scale-up à 19,2 Tb/s par puce, et permet de relier plus d'un million de TPUs dans un seul job d'entraînement grâce à une nouvelle architecture réseau baptisée Virgo. Le TPU 8i, lui, multiplie par 9,8 les EFlops FP8 par pod (11,6 contre 1,2), par 6,8 la capacité HBM (331,8 To contre 49,2), et fait quadrupler la taille des pods (de 256 à 1 152 puces). Les deux chips doivent être disponibles courant 2025. L'enjeu pour Google est d'abord économique. En fabriquant ses propres puces, Google échappe aux marges d'Nvidia, qui a transformé sa position de quasi-monopole sur les accélérateurs IA en l'une des valorisations boursières les plus élevées au monde. Amin Vahdat, vice-président senior et chief technologist AI & Infrastructure chez Google, a insisté sur l'intégration verticale totale de la stack Google, du silicium au logiciel, comme levier de compétitivité sur le coût par token. Pour les clients enterprise qui entraînent des modèles ou déploient des agents en production sur Google Cloud et Vertex AI, cela se traduit concrètement : jusqu'à présent, les mêmes accélérateurs servaient à la fois pour l'entraînement et l'inférence, avec les inefficacités que cela implique. La génération v8 est la première à traiter ces deux charges de travail comme des problèmes distincts, avec deux siliciums dédiés. La décision de scinder la feuille de route en deux puces a été prise en 2024, soit un an avant que le reste de l'industrie ne pivote massivement vers les modèles de raisonnement, les agents et le reinforcement learning. "Deux ans avant tout le monde, nous avions compris qu'une puce par an ne suffirait plus", a résumé Vahdat. Pour le TPU 8i, Google a développé avec Google DeepMind une topologie réseau inédite appelée Boardfly, conçue pour réduire la latence plutôt que de maximiser le débit, un choix crucial pour les agents IA qui doivent répondre en temps réel. Le TPU 8t introduit également le TPU Direct Storage, qui achemine les données depuis le stockage directement dans la mémoire HBM sans passer par le CPU, réduisant le temps nécessaire à chaque epoch d'entraînement. Google positionne clairement cette génération comme une rupture technologique destinée à creuser l'écart avec ses concurrents sur le marché du cloud IA.

UELes entreprises européennes utilisant Google Cloud pour l'entraînement de modèles IA ou le déploiement d'agents en production pourraient bénéficier d'un coût par token réduit grâce à la spécialisation des puces TPU v8.

InfrastructureOpinion
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
19NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source
Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027
20Le Big Data 

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027

Nvidia a officiellement confirmé le lancement de son prochain GPU phare, le Rubin Ultra, prévu pour 2027. Successeur du Blackwell Ultra, cette puce repose sur une architecture en chiplets de type MCM (Multi-Chip Module) assemblant quatre dies gravés en nœud N2 chez TSMC, pour un total d'environ 336 milliards de transistors. Elle s'intègre dans la plateforme Vera, un écosystème complet où le GPU collabore avec le processeur Vera, doté de 88 cœurs, via une interconnexion NVLink-C2C sans latence. Le tout est relié par le nouveau commutateur NVLink 6, conçu pour des vitesses de transfert inédites à l'échelle des racks de serveurs. La mémoire intégrée atteint 1 To de HBM4e répartis sur 12 stacks, avec une bande passante annoncée à 22 To/s, soit un bond considérable par rapport aux générations précédentes. Ce niveau de performance change concrètement la donne pour les entreprises qui entraînent ou déploient des grands modèles de langage. Avec 1 To de mémoire embarquée sur une seule puce, il devient possible de charger des modèles entiers sans recourir à des échanges lents entre composants, l'un des goulots d'étranglement structurels des infrastructures actuelles. L'architecture en chiplets apporte par ailleurs une modularité absente des puces monolithiques : la montée en charge des clusters de serveurs devient plus fluide, et chaque unité de calcul peut fonctionner en coordination étroite avec les autres. Pour les opérateurs de data centers et les hyperscalers, le Rubin Ultra ne représente pas un simple upgrade de performance, mais une refonte de ce que l'on appelle désormais les "AI Factories", ces infrastructures entièrement conçues autour des besoins du calcul IA. Nvidia accélère son calendrier de manière visible : le Rubin Ultra arrivera en 2027, mais son architecture est déjà documentée et ses partenariats hardware (TSMC N2, HBM4e) sont scellés, signalant une volonté de garder plusieurs générations d'avance sur ses concurrents AMD et Intel, ainsi que sur les puces maison développées par Google (TPU), Amazon (Trainium) et Microsoft (Maia). La transition vers les chiplets, longtemps réservée aux CPU, marque un tournant pour les GPU de datacenter. L'intégration verticale de la plateforme Vera, qui lie hardware et software de façon indissociable, rappelle la stratégie d'Apple avec ses puces M, mais appliquée à l'échelle des supercalculateurs industriels. Les entreprises qui visent ces infrastructures devront consentir des investissements massifs, mais la dépendance à l'écosystème Nvidia, déjà forte via CUDA, ne fera que s'approfondir avec cette nouvelle génération.

UELes opérateurs européens de data centers et les hyperscalers devront planifier dès maintenant des investissements massifs pour 2027, tout en s'enfermant davantage dans l'écosystème Nvidia via CUDA et la plateforme Vera.

InfrastructureOpinion
1 source
Un robot humanoïde Nvidia tient un poste de 8 heures en usine Siemens à 60 bacs par heure
21Interesting Engineering 

Un robot humanoïde Nvidia tient un poste de 8 heures en usine Siemens à 60 bacs par heure

En janvier 2026, le robot humanoïde HMND 01 Alpha du startup britannique Humanoid a réalisé un déploiement de deux semaines dans l'usine électronique de Siemens à Erlangen, en Allemagne. Les résultats, annoncés à la Hannover Messe 2026 en partenariat avec Nvidia, ont dépassé tous les objectifs fixés : le robot à roues a opéré en continu pendant plus de huit heures, déplaçant 60 bacs de stockage par heure avec un taux de réussite supérieur à 90 %. Sa mission consistait à saisir des bacs, les transporter à travers l'usine et les déposer sur des convoyeurs aux points de transfert désignés pour les opérateurs humains, dans un environnement de production réel où ses performances avaient un impact direct sur les opérations. Stephan Schlauss, directeur mondial de la motion control chez Siemens, a qualifié l'usine d'Erlangen de "customer zero" : Siemens s'est volontairement positionné comme premier client payant et validateur de la technologie, avant de la proposer à d'autres industriels. Ce déploiement est significatif parce qu'il franchit la frontière entre démonstration contrôlée et production industrielle réelle. Le robot a travaillé aux côtés d'humains et de systèmes automatisés existants, coordonnant ses actions en temps réel avec des véhicules à guidage autonome et les systèmes de l'usine via la plateforme Siemens Xcelerator, qui a fourni des capacités de jumeau numérique, de perception par IA, d'interfaces PLC-robot et de gestion de flotte. C'est précisément ce niveau d'intégration enterprise qui distingue un vrai déploiement industriel d'une simple preuve de concept. Deepu Talla, vice-président robotique et edge AI chez Nvidia, a affirmé que ce déploiement ouvre la voie aux robots humanoïdes pour atteindre des objectifs de production réels sur des lignes actives. Humanoid, fondée en 2024 par Artem Sokolov et dont le siège est à Londres avec des bureaux à Boston et Vancouver, emploie plus de 200 ingénieurs issus d'Apple, Tesla, Google et Boston Dynamics. L'entreprise a développé le HMND 01 Alpha en environ sept mois, là où le cycle habituel dépasse 18 à 24 mois, grâce à une approche "simulation d'abord" utilisant Nvidia Isaac Lab pour l'apprentissage par renforcement et Nvidia Isaac Sim pour la validation virtuelle avant tout déploiement physique. La version bipède du robot dispose de 29 degrés de liberté et d'une suite complète de capteurs. Siemens et Humanoid présentent le déploiement d'Erlangen non comme une expérimentation isolée mais comme une architecture de référence reproductible par d'autres fabricants, dans un contexte où la pénurie de main-d'oeuvre dans l'industrie manufacturière et les contraintes de flexibilité rendent les lignes entièrement automatisées souvent inadaptées.

UEL'usine Siemens d'Erlangen (Allemagne) est positionnée comme architecture de référence reproductible pour les industriels européens confrontés à la pénurie de main-d'œuvre manufacturière.

💬 60 bacs par heure, 8 heures sans s'arrêter, en production réelle, pas dans un labo avec les caméras bien placées. Le positionnement de Siemens en "customer zero" dit tout : ils testent sur leur propre usine avant de revendre l'architecture à leurs clients industriels, c'est une stratégie commerciale autant qu'une validation technique. Sept mois de dev au lieu de deux ans grâce à la simulation, bon, faut confirmer ça sur 50 usines et pas une.

RobotiqueOpinion
1 source
22NVIDIA AI Blog 

NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026

NVIDIA et ses partenaires industriels investissent Hannover Messe 2026, le salon phare de l'industrie manufacturière qui se tient du 20 au 24 avril à Hanovre, en Allemagne, pour y présenter ce qu'ils considèrent comme la prochaine révolution de la production : l'usine pilotée par l'intelligence artificielle. Au programme, des démonstrations concrètes couvrant l'informatique accélérée, la simulation physique en temps réel, les agents autonomes et les robots humanoïdes opérant en environnement industriel. Parmi les temps forts, l'annonce de l'Industrial AI Cloud, l'un des plus grands centres d'IA d'Europe, construit en Allemagne par Deutsche Telekom sur infrastructure NVIDIA. Des géants comme SAP, Siemens, ABB, Dassault Systèmes, Cadence ou encore Synopsys y participent, aux côtés d'acteurs spécialisés comme Agile Robots, Wandelbots et PhysicsX. EDAG, prestataire indépendant d'ingénierie, a par ailleurs annoncé le déploiement de sa plateforme de métavers industriel "metys" sur ce cloud souverain, ciblant l'automobile et l'ingénierie lourde. L'enjeu est considérable : l'industrie manufacturière mondiale fait face à une pression simultanée sur les cycles de conception, les coûts opérationnels et la disponibilité de main-d'œuvre qualifiée. L'IA n'est plus une option expérimentale mais un levier de compétitivité immédiat. Les jumeaux numériques à l'échelle d'une usine entière, construits sur les bibliothèques Omniverse de NVIDIA et le standard ouvert OpenUSD, permettent désormais de simuler, tester et optimiser des lignes de production en continu, sans interruption physique. ABB, par exemple, intègre ces outils dans sa suite Genix pour analyser la performance des équipements et accélérer la recherche de causes de pannes via des agents IA. Pour les ingénieurs, la simulation physique en temps réel change radicalement le processus de conception : là où des heures de calcul étaient nécessaires, des résultats apparaissent en secondes. Cette offensive de NVIDIA dans l'industrie s'inscrit dans une stratégie plus large visant à faire de l'informatique accélérée le socle de la transformation industrielle européenne. Le concept de "souveraineté numérique" est central : face aux craintes européennes de dépendance aux clouds américains, l'Industrial AI Cloud positionné en Allemagne répond à une demande politique autant qu'économique. CUDA-X, Omniverse, les modèles ouverts Nemotron et les puces NVIDIA équipent désormais les logiciels des éditeurs les plus influents du secteur, de Siemens à Dassault Systèmes, créant un écosystème interdépendant difficile à contourner. Dell, IBM, Lenovo et PNY complètent l'offre avec des systèmes accélérés déployables de la périphérie jusqu'aux datacenters. La prochaine étape, déjà visible à Hanovre, est l'intégration de robots humanoïdes dans les chaînes de production, un marché où NVIDIA entend jouer un rôle d'infrastructure aussi structurant que dans l'IA générative.

UEL'Industrial AI Cloud inauguré en Allemagne par Deutsche Telekom sur infrastructure NVIDIA, avec la participation de Dassault Systèmes et Siemens, offre aux industriels européens une infrastructure cloud souveraine pour déployer l'IA en production.

InfrastructureActu
1 source
23Le Big Data 

NVIDIA Vera : quand le CPU devient le cerveau de l’IA autonome

Le 16 mars 2026, lors de la conférence GTC 2026, Jensen Huang a présenté le processeur CPU Vera, une puce conçue spécifiquement pour l'intelligence artificielle agentique. Architecturé autour de la plateforme Olympus, Vera embarque 88 cœurs personnalisés basés sur la technologie ARM Neoverse, une mémoire SOCAMM en LPDDR6 atteignant une bande passante de 1,2 To/s, et une conception monolithique qui réduit la latence interne au minimum physiquement possible. Contrairement aux GPU Blackwell et Rubin qui gèrent le traitement parallèle massif, Vera prend en charge l'exécution séquentielle et logique : la planification, la vérification, l'enchaînement de décisions. Sa capacité à manipuler des contextes de plusieurs millions de tokens en temps réel en fait un composant radicalement différent des processeurs x86 traditionnels, jugés trop lents pour les exigences actuelles de l'IA. L'enjeu est fondamental pour toute entreprise qui cherche à déployer des agents IA dans des workflows réels. Jusqu'ici, les systèmes d'IA buttaient sur le goulot d'étranglement du raisonnement séquentiel : générer du texte rapidement ne suffit pas pour gérer du code complexe, de la logistique ou de la prise de décision multi-étapes. Vera permet à l'IA de passer d'un outil passif à un collaborateur capable d'orchestrer des tâches sur la durée, de corriger ses propres erreurs et d'enchaîner des raisonnements structurés sans latence perceptible. Pour les développeurs et les entreprises, cela ouvre concrètement la voie à des agents autonomes opérationnels dans des environnements de production exigeants, là où les solutions actuelles restent trop fragiles ou trop lentes. Cette annonce s'inscrit dans une accélération que NVIDIA pilote depuis plusieurs années en construisant une pile matérielle complète pour l'IA. Après avoir dominé l'entraînement des modèles avec ses GPU, puis l'inférence avec la gamme Blackwell, l'entreprise complète aujourd'hui l'architecture avec un CPU qui lui est propre, réduisant sa dépendance aux processeurs Intel et AMD pour les charges de travail IA. Le concept rappelle la distinction cognitive entre Système 1 (rapide, instinctif) et Système 2 (analytique, délibéré) : les GPU couvrent le premier, Vera prend en charge le second. Si l'adoption suit, NVIDIA pourrait imposer une architecture propriétaire de bout en bout pour les data centers orientés agents, ce qui renforcerait encore davantage sa position dominante dans l'infrastructure de l'IA mondiale au moment où la course aux systèmes autonomes s'intensifie chez Google, Microsoft et Meta.

UELes opérateurs de data centers européens déployant des agents IA devront évaluer une migration vers cette architecture propriétaire NVIDIA pour contourner les goulots d'étranglement du raisonnement séquentiel.

💬 Le goulot d'étranglement du raisonnement séquentiel, c'est le truc qui fait ramer les agents en prod depuis 2 ans, et Vera s'attaque frontalement à ça. La distinction Système 1/Système 2 appliquée au silicium, c'est bien vu, pas juste du marketing. Le revers, c'est que si t'as besoin de Vera pour que tes agents tournent vraiment, t'achètes le stack NVIDIA complet, de bout en bout, et ils le savent.

InfrastructureOpinion
1 source
NVIDIA vient de tuer le rendu 3D classique : découvrez Lyra 2.0 !
24Le Big Data 

NVIDIA vient de tuer le rendu 3D classique : découvrez Lyra 2.0 !

NVIDIA a publié le 15 avril 2026 Lyra 2.0, un nouveau framework de recherche capable de générer des environnements 3D persistants et explorables à grande échelle. Développé par NVIDIA Research, cet outil repose sur une génération vidéo 3D guidée par une caméra virtuelle : le système reconstruit progressivement la structure volumétrique d'une scène à partir de séquences d'images, transformant chaque mouvement de caméra en matière tridimensionnelle exploitable. La particularité centrale est la persistance géométrique, chaque zone visitée est mémorisée par image, ce qui permet de revenir en arrière sans que le système réinvente les détails disparus de son champ de vue. Lyra 2.0 intègre également un mécanisme de correction de la dérive temporelle, un phénomène qui dégradait les scènes générées sur la durée dans les approches précédentes. Les scènes produites peuvent être exportées en Gaussian Splatting, une technique de rendu rapide basée sur des points lumineux, et intégrées à des simulateurs comme Isaac Sim. L'impact concret de Lyra 2.0 touche plusieurs industries simultanément. Pour les studios de jeu vidéo et les équipes de production 3D, la technologie court-circuite une partie du pipeline traditionnel de modélisation : au lieu de construire manuellement des environnements, on les traverse pendant leur génération automatique. Pour la robotique et l'IA embarquée, les environnements générés deviennent des terrains d'entraînement réalistes, permettant de tester des agents intelligents dans des conditions proches du monde réel sans coûteuses captures physiques. La reconstruction feed-forward, qui transforme une vidéo en structure 3D sans étape manuelle lourde, ouvre la voie à une production de données synthétiques à une échelle difficile à atteindre jusqu'ici. C'est ce double usage, création visuelle et simulation opérationnelle, qui distingue Lyra 2.0 des outils de génération vidéo classiques. La sortie de Lyra 2.0 intervient dans un contexte de compétition intense autour des mondes 3D génératifs. NVIDIA a publié le code source le 15 avril 2026, soit un jour seulement après que World Labs a lancé Spark 2.0, son propre système concurrent. Ce calendrier serré illustre la course que se livrent les grands acteurs de l'IA pour imposer leurs standards dans ce segment émergent. NVIDIA part avec un avantage structurel : son écosystème logiciel, Isaac Sim, Gaussian Splatting, les GPU omniprésents dans les datacenters, lui permet d'intégrer Lyra 2.0 dans des workflows industriels existants dès le départ. Les prochaines étapes attendues concernent l'amélioration de la résolution des scènes générées, la gestion des environnements extérieurs complexes, et l'intégration plus poussée avec les pipelines de simulation robotique où NVIDIA investit massivement depuis plusieurs années.

UELes studios de jeux vidéo et équipes de robotique européens peuvent adopter ce framework open source pour accélérer leur pipeline de création 3D et générer des données d'entraînement synthétiques sans captures physiques coûteuses.

OutilsPaper
1 source
25Le Big Data 

Nvidia vs Meta : qui contrôle vraiment l’IA en 2026 ?

En 2026, deux géants se livrent une bataille ouverte pour le contrôle de l'infrastructure de l'intelligence artificielle mondiale. D'un côté, Nvidia capte entre 80 et 90 % du marché des GPU pour centres de données, enchaînant les trimestres records grâce à une demande pour ses puces Blackwell qui dépasse toutes les prévisions. De l'autre, Meta, dirigé par Mark Zuckerberg, a décidé de rompre sa dépendance à ce fournisseur unique en annonçant jusqu'à 135 milliards de dollars d'investissements en capital pour 2026, dont un contrat historique de 6 gigawatts de puces AMD. Le marché mondial de l'IA générative devrait franchir 100 milliards de dollars d'ici fin 2026, porté par une adoption professionnelle massive : près de 80 % des entreprises prévoient d'intégrer des API d'IA ou de déployer des modèles personnalisés dans leurs processus. Les revenus issus des applications mobiles boostées à l'IA devraient doubler entre 2024 et 2026, avec une répartition géographique marquée : 37,3 milliards de dollars pour les États-Unis (+60 %), 14,7 milliards pour la Chine (+72 %), et une projection de 20 milliards pour la France à horizon 2030. L'enjeu dépasse la simple guerre commerciale entre deux entreprises. Ce que Meta cherche à construire, c'est une souveraineté technologique sur sa propre pile IA, de l'infrastructure physique jusqu'aux modèles. Tant que Nvidia reste le passage obligé pour tout acteur sérieux de l'IA, le géant de Menlo Park reste exposé à des pénuries, des hausses de prix et des délais de livraison qu'il ne contrôle pas. La diversification vers AMD n'est pas un choix technique anodin : c'est un signal politique adressé à toute l'industrie. En parallèle, les joueurs grand public risquent de subir les conséquences de cette course aux serveurs IA, Nvidia orientant clairement sa production vers les centres de données au détriment du segment gaming. La véritable forteresse de Nvidia ne réside pas dans ses puces mais dans son écosystème logiciel CUDA, standard industriel dominant depuis plus de quinze ans, que la concurrence peine à détrôner malgré des investissements considérables. L'architecture Rubin, attendue en succession des Blackwell, devrait creuser encore l'écart en termes de performances brutes. Meta n'est pas seul dans cette tentative de diversification : Google avec ses TPU, Amazon avec ses Trainium, et Microsoft via ses investissements dans OpenAI cherchent tous à réduire leur exposition à un seul fournisseur. La question qui structure désormais toute la filière est celle des infrastructures : les réseaux électriques, les capacités de refroidissement et les chaînes d'approvisionnement en semi-conducteurs peuvent-ils absorber une demande qui double tous les dix-huit mois ? C'est sur ce terrain physique, autant que logiciel, que se jouera la prochaine phase de la course à l'IA.

UELes entreprises européennes restent structurellement dépendantes de l'écosystème Nvidia/CUDA pour leurs projets IA, rendant leur accès à l'infrastructure coûteux et soumis aux arbitrages de production d'acteurs hors UE.

InfrastructureOpinion
1 source
Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia
26The Information AI 

Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia

Nebius, fournisseur cloud soutenu par Nvidia et valorisé à 32 milliards de dollars, est en discussions pour racheter la startup israélienne AI21 Labs, selon des sources proches du dossier. La société, basée à Amsterdam, cherche à élargir ses services d'intelligence artificielle au-delà de son activité principale de location de serveurs GPU. AI21 Labs, dont la dernière valorisation connue était de 1,4 milliard de dollars en 2023, développe des grands modèles de langage et des systèmes d'agents pour les entreprises. Ce rachat potentiel permettrait à Nebius de monter dans la chaîne de valeur de l'IA, en passant de simple infrastructure à fournisseur de solutions logicielles complètes. Pour ses clients, cela signifierait un accès intégré à des modèles et outils d'IA directement via la plateforme cloud, sans passer par des tiers. Pour AI21 Labs, une acquisition représente une issue après l'échec d'une précédente tentative de vente à Nvidia, qui ne s'était pas concrétisée. AI21 Labs fait partie de la première vague de startups israéliennes spécialisées en IA générative, concurrente directe d'OpenAI et Anthropic sur le segment entreprise. La startup avait levé des fonds auprès d'investisseurs majeurs dont Google, Intel Capital et Nvidia lui-même. Le secteur cloud connaît une consolidation accélérée, les fournisseurs d'infrastructure cherchant à intégrer verticalement des capacités IA pour fidéliser leurs clients face à la concurrence d'AWS, Azure et Google Cloud.

UENebius étant basée à Amsterdam, ce rachat potentiel renforcerait la position d'un acteur cloud ancré en Europe dans la chaîne de valeur de l'IA générative enterprise.

BusinessActu
1 source
TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?
27The Information AI 

TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?

Nick Tatarchuk, fondateur de la startup TensorWave, a organisé mercredi à San Francisco un événement intitulé Beyond Summit, anciennement appelé Beyond CUDA. Ce changement de nom n'est pas anodin : l'édition précédente, tenue à San Jose en 2025 lors de la conférence GTC de Nvidia, avait attiré des centaines de participants désireux de discuter des alternatives au logiciel de Nvidia. Cette année, des sponsors et participants potentiels ont exprimé des réticences à s'associer à un événement aussi explicitement positionné contre le géant des puces. Tatarchuk lui-même reconnaît cette pression, d'autant que sa salle habituelle à San Jose avait été réservée pour plusieurs années... par Nvidia. L'événement réunit des startups qui développent des compilateurs, des noyaux et des couches d'optimisation pour concurrencer l'écosystème logiciel de Nvidia, dont plusieurs ont figuré dans les classements Top 50 Startups de 2024 et 2025. L'enjeu central est CUDA, la plateforme logicielle de Nvidia considérée comme son véritable fossé concurrentiel : elle simplifie radicalement l'utilisation du matériel Nvidia pour l'entraînement et l'inférence de modèles d'IA. Mais ce monopole commence à se fissurer. OpenAI et Meta ont récemment annoncé des accords importants avec AMD, rival direct de Nvidia, pour utiliser ses puces dans leurs infrastructures d'IA. Tatarchuk affirme que des laboratoires d'IA commencent désormais à réaliser des entraînements à grande échelle sur du matériel AMD, une pratique qui était à peine évoquée publiquement il y a encore peu. Pour la première fois depuis des années, des clients seraient prêts à envisager sérieusement des alternatives à CUDA, estime-t-il : "Il y a tellement d'entreprises sophistiquées qui n'ont pas besoin de CUDA." Ce mouvement s'inscrit dans un contexte de transformation profonde de l'industrie du calcul pour l'IA. La domination de Nvidia, dont les GPU représentent l'essentiel du marché de l'entraînement des grands modèles, est contestée à la fois par des fabricants de puces alternatifs et par un écosystème logiciel naissant. En parallèle, une autre initiative illustre l'effervescence du secteur : à l'université Stanford, un cours universitaire de premier cycle sur l'infrastructure IA est devenu un événement majeur, surnommé le "Compute Coachella". Le cours, complet, réunit cette semaine Jensen Huang (Nvidia), Lisa Su (AMD), Sam Altman (OpenAI), Satya Nadella (Microsoft) et Andrej Karpathy comme intervenants. Il est enseigné par Anjney Midha, ancien associé d'Andreessen Horowitz et investisseur précoce d'Anthropic, et Michael Abbott, ancien responsable ingénierie chez Apple, tous deux impliqués dans AMP, une initiative visant à faciliter l'accès aux ressources de calcul pour les entreprises.

UEL'émergence d'alternatives viables à CUDA pourrait à terme réduire la dépendance des entreprises et laboratoires européens envers Nvidia pour leurs infrastructures d'entraînement IA.

InfrastructureActu
1 source
Nvidia lance une plateforme d'agents IA pour entreprises avec Adobe, Salesforce et SAP parmi 17 adopteurs à GTC 2026
28VentureBeat AI 

Nvidia lance une plateforme d'agents IA pour entreprises avec Adobe, Salesforce et SAP parmi 17 adopteurs à GTC 2026

Lors de la conférence GTC 2026, Jensen Huang a présenté lundi l'Agent Toolkit de Nvidia, une plateforme open source destinée à la création d'agents d'IA autonomes en entreprise. Dix-sept géants du logiciel ont immédiatement annoncé leur adoption : Adobe, Salesforce, SAP, ServiceNow, Siemens, CrowdStrike, Atlassian, Cadence, Synopsys, IQVIA, Palantir, Box, Cohesity, Dassault Systèmes, Red Hat, Cisco et Amdocs. La plateforme regroupe quatre composants clés : Nemotron, une famille de modèles ouverts optimisés pour le raisonnement agentique ; AI-Q, un blueprint permettant aux agents de percevoir, raisonner et agir sur les données d'entreprise ; OpenShell, un environnement d'exécution open source imposant des garde-fous de sécurité, de réseau et de confidentialité ; et cuOpt, une bibliothèque d'optimisation. Ces agents peuvent traiter des tickets de support client, concevoir des semi-conducteurs, gérer des essais cliniques ou piloter des campagnes marketing, le tout de façon autonome. L'enjeu commercial est considérable. En faisant adopter cette pile logicielle par des entreprises présentes dans pratiquement chaque secteur du Fortune 500, Nvidia ne vend pas directement ses GPU — il conçoit un écosystème logiciel qui les rend indispensables. Le composant AI-Q promet par ailleurs de réduire les coûts de traitement de plus de 50 % en routant les tâches complexes vers des modèles frontier et les tâches de recherche vers les modèles Nemotron moins coûteux. Nvidia revendique également que son agent basé sur AI-Q se classe en tête des benchmarks DeepResearch Bench et DeepResearch Bench II, ce qui, si validé indépendamment, rendrait la plateforme non seulement pratique mais compétitivement incontournable. La confiance des entreprises, obstacle historique au déploiement d'agents autonomes, est adressée via OpenShell, développé en collaboration avec Cisco, CrowdStrike, Google, Microsoft Security et TrendAI. Cette annonce s'inscrit dans une stratégie plus large de Nvidia pour étendre son emprise au-delà du matériel. Jusqu'ici, construire un agent d'IA d'entreprise nécessitait d'assembler des briques disparates — modèle de langage, système de récupération d'information, couche de sécurité, orchestrateur — issues de fournisseurs différents jamais conçus pour fonctionner ensemble. Nvidia résout ce problème de fragmentation en proposant une fondation unifiée, open source dans sa licence mais optimisée pour ses propres puces. La stratégie rappelle celle d'une infrastructure de péage : ouverte à tous, mais dont Nvidia contrôle l'architecture. Alors que les entreprises s'apprêtent à déployer massivement des agents autonomes dans leurs systèmes informatiques, la question n'est plus tant de savoir si elles adopteront ces outils, mais si une alternative crédible à l'écosystème Nvidia pourra émerger avant que la dépendance ne soit totale.

UESAP, Siemens et Dassault Systèmes figurent parmi les 17 premiers adopteurs, exposant les grandes entreprises européennes à une dépendance croissante envers l'écosystème logiciel et matériel de Nvidia pour leurs déploiements d'agents IA.

OutilsOpinion
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
29NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA
30Le Big Data 

NVIDIA et Marvell s’unissent pour révolutionner les infrastructures IA

NVIDIA et Marvell Technology ont annoncé un partenariat stratégique majeur, scellé par un investissement de 2 milliards de dollars de NVIDIA dans Marvell. L'accord s'articule autour de NVLink Fusion, une plateforme modulaire permettant de construire des infrastructures d'IA semi-personnalisées. Concrètement, Marvell apportera des XPU (processeurs accélérés sur mesure) et un réseau évolutif compatible, tandis que NVIDIA fournit l'ensemble de son arsenal matériel : processeurs Vera, cartes réseau ConnectX, DPU BlueField, interconnexion NVLink, commutateurs Spectrum-X et capacité de calcul déployable en rack. Le titre Marvell a bondi de 11 % dès l'annonce mardi, signe que les marchés ont immédiatement perçu la portée de l'accord. Le partenariat couvre également les réseaux télécoms, via NVIDIA Aerial AI-RAN, avec des ambitions sur la 5G et la future 6G, ainsi que sur des technologies d'interconnexion optique et de photonique sur silicium pour améliorer les performances et réduire la consommation énergétique. Pour les entreprises qui développent leurs propres puces d'accélération, NVLink Fusion ouvre la voie à des architectures hybrides entièrement compatibles avec l'écosystème NVIDIA — GPU, réseau et stockage compris. C'est un changement structurel : jusqu'ici, intégrer des composants tiers dans une infrastructure NVIDIA relevait du casse-tête d'interopérabilité. Désormais, les hyperscalers, opérateurs télécom et acteurs du cloud pourront combiner des XPU Marvell avec la stack NVIDIA sans friction. Pour les utilisateurs finaux, l'impact est indirect mais réel : des modèles d'IA générative plus complexes pourront tourner à moindre latence, ce qui se traduit par des services de recommandation, de création de contenu ou de simulation plus réactifs. Dans les télécoms, l'alliance prépare le terrain pour des réseaux 5G/6G capables de supporter des usages exigeants comme la télémédecine en temps réel ou les véhicules autonomes. Ce rapprochement s'inscrit dans un contexte de demande explosive en capacité de calcul, portée par la généralisation de l'IA générative et l'explosion des volumes de données. Jensen Huang, PDG de NVIDIA, parle lui-même d'une "ère de supercalcul" en cours d'avènement. Face à cette pression, les grandes entreprises technologiques mondiales s'engagent dans une course à la construction de centres de calcul dédiés, et NVIDIA cherche à s'imposer comme la colonne vertébrale incontournable de ces infrastructures. Marvell, de son côté, se repositionne comme fournisseur clé de silicium personnalisé pour l'IA — un marché en pleine effervescence où Amazon, Google et Microsoft développent déjà leurs propres puces. L'investissement de 2 milliards de dollars de NVIDIA dans Marvell est autant un signal industriel qu'une manœuvre défensive : consolider l'écosystème avant que les alternatives ne s'imposent.

UELes opérateurs télécom et fournisseurs cloud européens pourront intégrer des architectures hybrides XPU Marvell / stack NVIDIA sans friction, accélérant leurs déploiements 5G/6G et d'IA générative.

💬 NVIDIA ne se contente plus de vendre des GPU, il construit le système nerveux de toute l'infrastructure IA. NVLink Fusion, c'est le genre de coup qu'on voit venir mais dont on mesure mal l'ampleur : permettre à Marvell (et demain à d'autres) de brancher leurs puces custom directement dans l'écosystème NVIDIA, c'est verrouiller le marché de façon beaucoup plus subtile qu'un simple rachat. Les 2 milliards d'investissement, c'est pas de la philanthropie, c'est de la consolidation défensive avant qu'AMD ou les hyperscalers in-house ne s'imposent.

InfrastructureOpinion
1 source
Mistral réunit 722 millions d’euros pour financer l’achat de 13 800 GPU NVIDIA
31Next INpact 

Mistral réunit 722 millions d’euros pour financer l’achat de 13 800 GPU NVIDIA

Mistral AI a finalisé lundi 30 mars un emprunt de 830 millions de dollars (722 millions d'euros) auprès d'un pool de sept banques pour équiper son datacenter de Bruyères-le-Châtel, au sud de Paris. Cet argent servira à acquérir 13 800 puces GB300 de NVIDIA, les processeurs de dernière génération destinés aux charges d'IA intensives. Une fois déployée, cette infrastructure portera la puissance informatique disponible pour la startup à 44 mégawatts. Le financement mobilise une majorité d'acteurs français — Bpifrance, BNP Paribas, Crédit Agricole CIB, HSBC, La Banque Postale et Natixis — ainsi que la banque japonaise MUFG (groupe Mitsubishi). La mise en service est annoncée pour le deuxième trimestre 2026. Cet investissement positionne Mistral comme le premier opérateur d'infrastructure IA souveraine en Europe capable d'offrir à ses clients institutionnels une puissance de calcul hors de toute juridiction extraterritoriale américaine. C'est l'enjeu central de l'offre Mistral Compute, lancée en juin 2025 et déjà contractualisée avec le ministère des Armées français en janvier 2026. Pour les gouvernements, administrations et grandes entreprises qui cherchent à déployer des modèles IA sans dépendre d'AWS, Azure ou Google Cloud, cette infrastructure représente une alternative concrète et européenne — un argument commercial de poids dans un contexte de tensions géopolitiques et de débats sur la souveraineté numérique. Le projet avait été annoncé en février 2025, avec Eclairion — spécialiste français des datacenters haute densité — comme partenaire de construction. À l'époque, l'intégrateur britannique devenu américain Fluidstack était également associé au projet, mais Bloomberg indique qu'il a depuis réorienté ses investissements vers les États-Unis, laissant le champ plus libre à une configuration franco-française. En décembre 2025, le CEO d'Eclairion évoquait encore un cluster de puces GB200 comme « la plus grosse machine d'IA de France » sur le point d'entrer en production pour Mistral — les cartes semblent avoir été rebattues depuis, avec une transition vers les GB300, génération supérieure. En parallèle, Mistral a annoncé en février 2026 un second investissement de 1,2 milliard d'euros dans un autre projet de datacenter, confirmant une stratégie d'expansion infrastructure qui va bien au-delà du seul développement de modèles de langage. La startup cofondée par Arthur Mensch se construit désormais en fournisseur de cloud souverain à part entière.

UEMistral installe à Bruyères-le-Châtel la première infrastructure IA souveraine d'Europe hors juridiction américaine, déjà contractualisée avec le ministère des Armées français, offrant aux institutions et entreprises européennes une alternative concrète aux hyperscalers américains.

💬 722 millions d'euros de dette pour acheter des GPU, c'est pas anodin comme pari. Bon, sur le papier le timing est parfait : les gouvernements européens cherchent désespérément une sortie des hyperscalers américains, et Mistral vient d'arriver avec 13 800 GB300 et un contrat Armées déjà dans la poche. Ce qui me frappe surtout, c'est le pivot : on parle plus d'une boîte de modèles, mais d'un vrai fournisseur de cloud souverain.

InfrastructureOpinion
1 source
NVIDIA GTC : l'Omniverse au service de l'IA physique
32NVIDIA AI Blog 

NVIDIA GTC : l'Omniverse au service de l'IA physique

Lors de la conférence GTC la semaine dernière, NVIDIA a présenté plusieurs avancées majeures pour ce que l'entreprise appelle l'« ère de l'IA physique » — une phase où robots, véhicules autonomes et usines intelligentes passent de déploiements isolés à des systèmes industriels à grande échelle. Au cœur de ces annonces figurent trois nouveaux modèles de frontière : Cosmos 3 pour la modélisation du monde réel, Isaac GR00T N1.7 dédié aux compétences des robots humanoïdes, et Alpamayo 1.5 pour la conduite autonome. NVIDIA a également lancé deux blueprints open source : le Physical AI Data Factory Blueprint, destiné à produire des données d'entraînement à partir de simulations, et l'Omniverse DSX Blueprint, une architecture de référence pour créer des jumeaux numériques d'usines d'IA complètes. Des partenaires comme FieldAI, Hexagon Robotics, Skild AI et Teradyne Robotics utilisent déjà ces outils, tandis que Microsoft Azure et Nebius sont les premiers clouds à proposer le blueprint en mode clé en main. L'enjeu central de ces annonces est de résoudre un problème structurel de l'IA physique : les données réelles ne suffisent plus. Le monde réel est imprévisible, les cas limites sont innombrables, et les pipelines de collecte restent fragmentés. NVIDIA positionne donc la puissance de calcul elle-même comme une fabrique de données — transformant des scènes simulées en datasets massifs, diversifiés et hautement qualifiés. Pour les développeurs de robots et de véhicules autonomes, cela signifie pouvoir entraîner des modèles sur des millions de situations synthétiques sans dépendre d'une collecte terrain coûteuse. Parallèlement, l'Omniverse DSX Blueprint permet aux opérateurs d'usines d'IA de simuler thermiques, réseaux électriques et charges réseau avant même d'installer le premier serveur — réduisant les délais et les dépassements de budget sur des infrastructures qui coûtent des centaines de millions de dollars. Ces développements s'inscrivent dans une stratégie plus large de NVIDIA pour imposer son écosystème comme couche universelle de l'IA industrielle. Le format OpenUSD — langage de description de scènes 3D initialement développé par Pixar — joue un rôle clé en permettant de convertir des fichiers CAO d'ingénierie en environnements de simulation directement exploitables. Des frameworks open source comme OpenClaw viennent compléter la pile en orchestrant des agents autonomes capables de gérer des workflows complexes sur des machines dédiées. Avec l'intégration de partenaires cloud majeurs et d'une dizaine d'acteurs industriels, NVIDIA consolide une position de plateforme incontournable à un moment où la compétition pour contrôler l'infrastructure de l'IA physique — robots, voitures, usines — s'intensifie face à des concurrents comme Google DeepMind, Boston Dynamics et les constructeurs automobiles investissant massivement dans leurs propres systèmes embarqués.

UELes industriels et startups européens en robotique ou véhicules autonomes peuvent accéder via Microsoft Azure aux blueprints open source NVIDIA pour entraîner des modèles sur données synthétiques, réduisant leur dépendance coûteuse à la collecte terrain.

InfrastructureOpinion
1 source
Le nouveau rack serveur de Nvidia accueillera des puces IA de ses concurrents
33The Information AI 

Le nouveau rack serveur de Nvidia accueillera des puces IA de ses concurrents

Nvidia a dévoilé lors de sa conférence GTC un nouveau rack serveur capable d'héberger aussi bien ses propres puces que celles de ses concurrents. Ces racks intègrent une technologie réseau qui assure une communication rapide et fiable entre les chips. Nvidia transforme ainsi la concurrence en opportunité commerciale en monétisant l'infrastructure même qui fait tourner les puces rivales.

UELes entreprises européennes qui achètent des infrastructures IA pourront bénéficier de racks interopérables, réduisant potentiellement la dépendance à un seul fournisseur de puces.

InfrastructureActu
1 source
Nvidia Earth-2 : l’IA qui va révolutionner la prédiction météo dans le monde entier
34Le Big Data 

Nvidia Earth-2 : l’IA qui va révolutionner la prédiction météo dans le monde entier

En janvier 2026, Nvidia a lancé Earth-2, une plateforme de jumeau numérique de la Terre utilisant l'IA pour simuler le climat en temps réel, jusqu'à 1000 fois plus rapide que les supercalculateurs traditionnels. Les modèles agrègent des données de satellites, radars et stations météo pour générer des prévisions globales jusqu'à 14 jours en quelques secondes, sur une simple machine équipée de deux GPU RTX Pro 6000. Développée en collaboration avec la NOAA et MITRE, la plateforme sera open source pour démocratiser l'accès aux prévisions avancées, notamment dans les pays en développement.

UELes agences météorologiques européennes comme Météo-France ou l'ECMWF pourraient adopter cette plateforme open source pour améliorer leurs prévisions climatiques à moindre coût infrastructurel.

OutilsActu
1 source
35ZDNET FR 

Le marché des serveurs IA change d’ère : Vera Rubin place NVIDIA au centre du jeu

NVIDIA a dévoilé l'architecture Vera Rubin lors de la GTC 2026, marquant un tournant dans le marché des serveurs IA. Cette nouvelle génération positionne NVIDIA au cœur d'une transition vers des infrastructures intégrées, conçues comme de véritables « usines à IA ».

InfrastructureOpinion
1 source
36The Decoder 

Pékin approuve les ventes de la puce H200 de Nvidia, qui prépare une version adaptée au marché chinois de sa puce d'inférence Groq

Pékin a accordé à Nvidia l'autorisation de vendre sa puce IA H200 — la deuxième plus puissante de sa gamme — aux clients chinois, selon Reuters. La production avait été suspendue l'an dernier en raison d'obstacles réglementaires des deux côtés du Pacifique. Parallèlement, Nvidia travaillerait sur une version adaptée au marché chinois de sa puce d'inférence Groq.

UELa réautorisation des puces H200 en Chine modifie l'équilibre géopolitique des semi-conducteurs IA, renforçant la pression sur l'UE pour définir sa propre politique d'exportation de composants stratégiques.

BusinessReglementation
1 source
GTC 2026 : IBM et NVIDIA accélèrent l’IA en entreprise avec une nouvelle stratégie
37Le Big Data 

GTC 2026 : IBM et NVIDIA accélèrent l’IA en entreprise avec une nouvelle stratégie

Lors du GTC 2026, IBM et NVIDIA ont renforcé leur partenariat pour aider les entreprises à passer de l'expérimentation à un déploiement massif de l'IA, en s'attaquant aux freins liés aux données dispersées, aux infrastructures inadaptées et aux contraintes réglementaires. La collaboration intègre les GPU NVIDIA dans le moteur watsonx.data d'IBM via l'accélération SQL Presto, avec des résultats concrets : chez Nestlé, le temps de traitement des commandes est passé de 15 à 3 minutes (−83 %, performances ×30 dans 186 pays). L'offre couvre toute la chaîne IA — données structurées et non structurées (via Docling et les modèles Nemotron), infrastructure (IBM Storage Scale System 6000 certifié NVIDIA DGX) — pour une solution bout-en-bout en entreprise.

UENestlé, groupe suisse opérant dans 186 pays, a réduit son temps de traitement des commandes de 83% grâce à ce partenariat, démontrant un impact concret pour les grandes entreprises européennes qui cherchent à industrialiser leurs déploiements IA tout en respectant les contraintes réglementaires.

BusinessActu
1 source
GTC 2026 : avec le Groq 3 LPX, Nvidia ajoute pour la première fois du matériel d'inférence dédié à sa plateforme
38The Decoder 

GTC 2026 : avec le Groq 3 LPX, Nvidia ajoute pour la première fois du matériel d'inférence dédié à sa plateforme

Lors de la GTC 2026, Nvidia a élargi sa plateforme Vera Rubin — présentée au CES — en y ajoutant pour la première fois des puces dédiées à l'inférence (Groq 3 LPX), des racks CPU personnalisés et une nouvelle architecture de stockage. La société a également annoncé un système d'exploitation dédié à l'inférence, des alliances autour de modèles ouverts et un logiciel de sécurité pour agents IA.

UELes entreprises européennes exploitant des infrastructures Nvidia pour l'inférence IA pourront bénéficier de puces dédiées plus performantes, réduisant potentiellement les coûts et la latence des déploiements de modèles à grande échelle.

OutilsActu
1 source
Nvidia avait finalement besoin de Groq
39The Information AI 

Nvidia avait finalement besoin de Groq

Nvidia a annoncé lors de sa conférence annuelle GTC à San Jose l'intégration de la technologie de la startup Groq dans ses systèmes de puces GPU, notamment pour les tâches d'inférence IA spécialisées comme le codage. C'est une admission implicite mais majeure que les GPU Nvidia seuls ne suffisent pas pour certaines des tâches de calcul IA les plus importantes aujourd'hui. Un revirement notable, étant donné que le PDG Jensen Huang avait tenu des propos plutôt dismissifs sur Groq en janvier dernier.

LLMsOpinion
1 source
[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027
40Latent Space 

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027

Au GTC de NVIDIA, Jensen Huang a présenté les architectures Blackwell et Rubin en forte croissance, dévoilé le CPU Vera, et annoncé un carnet de commandes estimé à 1 000 milliards de dollars pour 2027, tout en lançant NemoClaw comme réponse aux failles de sécurité d'OpenClaw. En parallèle, Moonshot (Kimi) a publié un papier sur les "Attention Residuals" promettant un avantage de calcul de 1,25x avec moins de 2 % de surcoût à l'inférence, validé sur le modèle Kimi Linear 48B, bien que la nouveauté de l'approche soit débattue. Du côté d'OpenAI, Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires (+4x depuis janvier), tandis que GPT-5.4 a atteint 5 000 milliards de tokens par jour et un milliard de dollars de revenus annualisés en une semaine.

UELes laboratoires et entreprises européens déployant des infrastructures IA devront intégrer les nouvelles architectures NVIDIA (Vera CPU, Rubin) dans leur feuille de route hardware, avec des implications budgétaires majeures sur les prochains cycles d'investissement.

LLMsActu
1 source
Nvidia dévoile NemoClaw, son logiciel pour agents IA
41The Information AI 

Nvidia dévoile NemoClaw, son logiciel pour agents IA

Nvidia a dévoilé NemoClaw, un nouveau logiciel open-source permettant aux entreprises de créer leurs propres agents IA. Le PDG Jensen Huang a annoncé ce lancement lundi, dans la lignée du succès d'OpenClaw, un outil similaire destiné aux agents personnels.

UELes entreprises européennes peuvent adopter NemoClaw pour développer leurs propres agents IA en interne, sans dépendre de solutions propriétaires tierces.

OutilsOutil
1 source
GTC 2026 : Nvidia veut remplacer le problème de données en robotique par un problème de calcul
42The Decoder 

GTC 2026 : Nvidia veut remplacer le problème de données en robotique par un problème de calcul

Lors du GTC 2026, Nvidia a annoncé une expansion majeure de sa plateforme pour l'IA physique. Dès 2027, des véhicules autonomes circuleront à Los Angeles en partenariat avec Uber, tandis que les robots industriels de FANUC et ABB seront équipés de puces Nvidia. De nouveaux modèles visent également à améliorer les capacités des robots humanoïdes, transformant le défi des données en robotique en un problème de puissance de calcul.

UEABB, groupe suisse majeur en robotique industrielle, intégrera les puces Nvidia, ce qui pourrait accélérer l'automatisation dans les usines européennes.

RobotiqueActu
1 source
GTC : ce qu'il faut attendre de la puce Groq de Nvidia
43The Information AI 

GTC : ce qu'il faut attendre de la puce Groq de Nvidia

Nvidia ouvre aujourd'hui sa conférence annuelle GTC à San Jose, Californie, où le PDG Jensen Huang présentera demain sa keynote très attendue du secteur IA. L'annonce majeure attendue est un nouveau système de puces combinant la technologie Nvidia avec celle de Groq, une entreprise de puces indépendante dont Nvidia a acquis la licence pour environ 20 milliards de dollars fin 2024. C'est la première fois que Nvidia intègre le processeur IA d'une autre entreprise directement dans ses racks de serveurs.

OutilsOpinion
1 source
Nvidia et son partenaire cloud Nscale en négociations pour acquérir un grand site de data center aux États-Unis avant son introduction en bourse
44The Information AI 

Nvidia et son partenaire cloud Nscale en négociations pour acquérir un grand site de data center aux États-Unis avant son introduction en bourse

Nscale, un fournisseur cloud britannique soutenu par Nvidia dont les clients incluent OpenAI et Microsoft, est en négociation pour acquérir l'un des plus grands sites disponibles pour les centres de données IA aux États-Unis. Le site, situé dans le comté de Mason en Virginie-Occidentale, est particulièrement stratégique car il a déjà obtenu les autorisations réglementaires locales et sécurisé les équipements électriques pour les premières phases du projet. Cette acquisition ferait de Nscale, qui prépare une introduction en bourse, un acteur majeur de l'infrastructure IA américaine presque du jour au lendemain.

BusinessActu
1 source
Nvidia s'engouffre dans le vide open source laissé par OpenAI, Meta et Anthropic
45The Decoder 

Nvidia s'engouffre dans le vide open source laissé par OpenAI, Meta et Anthropic

Nvidia prévoit d'investir 26 milliards de dollars sur cinq ans dans des modèles d'IA open-weight, selon un document déposé auprès de la SEC. Cette stratégie répond à la montée en puissance des modèles open-source chinois tout en maintenant les développeurs dans l'écosystème matériel de Nvidia. OpenAI, Meta et Anthropic ayant délaissé ce créneau, Nvidia s'y engouffre pour conserver son influence sur l'ensemble de la chaîne IA.

UEL'investissement massif de Nvidia dans les modèles open-weight menace directement la position de Mistral AI, principale licorne française de l'IA open-source, en introduisant un concurrent aux ressources quasi-illimitées sur ce créneau stratégique.

BusinessActu
1 source
Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr
46The Information AI 

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

Nvidia, des startups comme Perplexity et Genspark s'activent pour proposer des versions sécurisées d'OpenClaw, le logiciel open-source populaire pour agents IA personnels, après plusieurs incidents de sécurité embarrassants — dont la suppression massive d'e-mails de la directrice d'alignement de Meta, Summer Yue. En Chine, des agences gouvernementales ont déjà interdit l'installation d'OpenClaw sur les appareils professionnels. Genspark lance notamment Genspark Claw, qui isole l'agent dans une machine virtuelle cloud (Microsoft Azure) pour contenir les dommages potentiels, à 80 ou 140 $/mois selon Wen Sang, co-fondateur et COO.

SécuritéActu
1 source
Nvidia investit 2 milliards dans Nebius : tout ce qu’il faut savoir
47Le Big Data 

Nvidia investit 2 milliards dans Nebius : tout ce qu’il faut savoir

Nvidia a conclu un accord de 2 milliards de dollars avec Nebius, société cloud IA basée à Amsterdam, dont l'action a bondi de plus de 10 % à l'annonce. Nebius prévoit de déployer d'ici 2030 une infrastructure de 5 gigawatts reposant sur la technologie Nvidia, avec notamment une installation de 1,2 gigawatt dans le Missouri. Le partenariat inclut la conception d'« usines à IA », le développement d'une plateforme d'inférence pour l'IA agentique, et s'inscrit dans une série d'investissements récents de Nvidia (Thinking Machines, Nscale).

UEL'investissement de 2 milliards de dollars de Nvidia dans Nebius, société cloud IA basée à Amsterdam, renforce la capacité de l'Union Européenne à déployer une infrastructure d'IA à grande échelle sur son territoire.

BusinessActu
1 source
Nvidia arrose de cash ; le président de la FCC défend SpaceX
48The Information AI 

Nvidia arrose de cash ; le président de la FCC défend SpaceX

Nvidia et son PDG Jensen Huang multiplient les investissements massifs dans leurs partenaires : 2 milliards de dollars dans Nebius (datacenter européen IA), 2 milliards dans Coherent et 2 milliards dans Lumentum (composants laser pour datacenters), ainsi qu'un investissement significatif dans la startup Thinking Machines Lab. Ce sont quatre annonces de ce type en l'espace d'une seule semaine, illustrant la stratégie d'Nvidia de consolider son écosystème via des prises de participation directes.

UEL'investissement de 2 milliards de dollars de Nvidia dans Nebius, acteur européen des datacenters IA basé aux Pays-Bas, renforce les capacités d'infrastructure cloud IA disponibles pour les entreprises et chercheurs de l'UE.

BusinessActu
1 source
Nvidia va investir 26 milliards de dollars dans des modèles d'IA open-weight, selon des documents officiels
49Wired AI 

Nvidia va investir 26 milliards de dollars dans des modèles d'IA open-weight, selon des documents officiels

Nvidia prévoit d'investir 26 milliards de dollars dans le développement de modèles d'IA open-weight, selon des documents officiels. Cette initiative positionnerait le géant de l'infrastructure IA pour concurrencer directement OpenAI, Anthropic et DeepSeek. Ce pivot stratégique marque une entrée significative de Nvidia dans la course aux modèles de fondation.

UEL'entrée de Nvidia dans le segment des modèles open-weight intensifie la concurrence pour Mistral, acteur français de référence dans ce domaine.

BusinessActu
1 source
Nebius, entreprise cloud IA, reçoit un investissement de 2 milliards de dollars de Nvidia
50The Information AI 

Nebius, entreprise cloud IA, reçoit un investissement de 2 milliards de dollars de Nvidia

Nvidia investit 2 milliards de dollars dans Nebius Group, société cloud IA basée à Amsterdam. Les deux entreprises collaboreront pour construire des centres de données atteignant 5 gigawatts de capacité énergétique d'ici la fin de la décennie.

UENebius Group, acteur cloud IA européen basé à Amsterdam, bénéficie d'un investissement massif de 2 milliards de dollars pour déployer des centres de données à grande échelle, renforçant la capacité d'infrastructure IA souveraine de l'Union Européenne.

BusinessActu
1 source

Suivre NVIDIA en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour