Aller au contenu principal

Dossier NVIDIA — page 2

710 articles · page 2 sur 15

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

Nvidia AI PC : quand la puissance des supercalculateurs s’invite dans votre ordinateur
51Le Big Data InfrastructureOpinion

Nvidia AI PC : quand la puissance des supercalculateurs s’invite dans votre ordinateur

Nvidia accélère l'intégration de l'intelligence artificielle directement dans les ordinateurs personnels avec sa gamme AI PC, des machines construites autour des puces graphiques GeForce RTX et de leurs Tensor Cores, des circuits spécialisés dans les calculs matriciels qui constituent le socle mathématique de tout réseau de neurones. Là où les PC certifiés "Copilot+" du marché affichent des performances comprises entre 40 et 50 TOPS (trillions d'opérations par seconde), suffisantes pour flouter un fond de visioconférence ou traduire du texte, les machines Nvidia visent des centaines de TOPS, voire plusieurs Petaflops, permettant d'exécuter de grands modèles de langage en local, de manière fluide et sans connexion. Cette architecture déporte l'intégralité des charges d'IA sur le GPU, préservant le processeur central pour le reste des tâches et maintenant la réactivité globale du système. L'enjeu dépasse la simple course aux performances : le traitement local supprime les trois principaux obstacles du cloud. La latence liée au transfert des données disparaît, l'IA reste disponible sans connexion internet, et les fichiers sensibles ne quittent jamais la machine, ce qui répond à une préoccupation critique des entreprises confrontées à l'envoi de documents stratégiques vers des serveurs tiers. Pour les professionnels comme pour les créateurs, cela signifie des outils d'IA réactifs, privés par défaut, et utilisables dans n'importe quel contexte, y compris hors ligne. L'ordinateur cesse d'être un terminal dépendant du cloud pour devenir un système autonome capable de raisonner localement. Ce repositionnement de Nvidia intervient dans un contexte de bataille industrielle intense entre les grands concepteurs de puces, Intel, AMD, Qualcomm et Apple ayant chacun intégré des accélérateurs IA dans leurs architectures récentes. Nvidia, historiquement associé au marché du jeu vidéo, capitalise sur sa domination dans le calcul GPU pour s'imposer comme architecte de la prochaine génération d'ordinateurs personnels, redessinant la hiérarchie des constructeurs de composants. La décennie de supériorité du CPU comme unité centrale de traitement s'efface au profit d'architectures hybrides où le GPU devient le moteur principal de l'IA locale. La prochaine étape sera probablement une standardisation de ces capacités à mesure que les modèles ouverts s'optimisent pour fonctionner sur des puces grand public, rendant le traitement local accessible à une fraction du coût actuel.

UELe traitement local de l'IA répond aux exigences RGPD des entreprises européennes en évitant l'envoi de documents stratégiques vers des serveurs tiers américains.

1 source
SpaceX signe avec Google un accord à 920 millions de dollars par mois pour 110 000 puces Nvidia avant son IPO
52The Decoder 

SpaceX signe avec Google un accord à 920 millions de dollars par mois pour 110 000 puces Nvidia avant son IPO

SpaceX et Google ont conclu un accord de location de capacité de calcul IA d'une valeur de 920 millions de dollars par mois, selon un document déposé auprès de la SEC américaine. Cette révélation intervient dans le cadre des préparatifs d'introduction en bourse de SpaceX. Concrètement, l'accord donne à Google accès à environ 110 000 puces Nvidia, que SpaceX exploite pour louer de la puissance de calcul à des tiers. Ces ressources sont destinées à répondre à la demande croissante pour Gemini Enterprise, la plateforme IA professionnelle de Google. Que l'un des plus grands fournisseurs de services cloud au monde soit contraint de louer de la capacité à l'extérieur témoigne de la profonde pénurie d'infrastructure IA qui s'est installée dans le secteur. Google, pourtant propriétaire de ses propres centres de données et de ses puces TPU maison, ne parvient pas à absorber seul la demande explosive pour ses services d'intelligence artificielle. Cette situation illustre aussi combien les grandes entreprises technologiques sont désormais interdépendantes, leurs chaînes d'approvisionnement et leurs activités s'imbriquant de façon inédite. SpaceX, connu pour ses fusées et son réseau satellitaire Starlink, s'impose ainsi comme un acteur inattendu de l'infrastructure numérique. La divulgation de cet accord via un document SEC confirme que la société d'Elon Musk avance vers une entrée en bourse, un événement très attendu dans la Silicon Valley. Dans un marché où les puces Nvidia H100 et H200 restent rarissimes, posséder un parc de 110 000 unités constitue un avantage stratégique considérable que SpaceX monétise directement auprès des géants du cloud.

UELa pénurie mondiale d'infrastructure de calcul IA illustrée par cet accord accentue les difficultés d'accès aux ressources GPU pour les entreprises et startups européennes.

💬 920 millions par mois, c'est le genre de chiffre qui remet les pendules à l'heure. Google a ses propres data centers, ses puces TPU maison, et ça suffit quand même pas pour absorber la demande Gemini. Que SpaceX bouche le trou, soit, mais le vrai signal c'est que même les mieux équipés du cloud sont structurellement à court.

InfrastructureActu
1 source
NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming
53MarkTechPost 

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

NVIDIA a lancé Nemotron 3.5 ASR, un modèle de reconnaissance vocale automatique en streaming capable de transcrire 40 variantes linguistiques en temps réel depuis un seul checkpoint de 600 millions de paramètres. Publié en open weights sur Hugging Face sous licence OpenMDW-1.1, le modèle repose sur une architecture Cache-Aware FastConformer-RNNT qui intègre nativement la ponctuation et les majuscules, sans étape de post-traitement supplémentaire. Il couvre des langues aussi variées que l'anglais, le français, l'espagnol, l'arabe, le japonais, le coréen, le mandarin, le hindi ou le thaï, avec un mode de détection automatique de la langue (targetlang=auto) permettant de traiter des flux audio multilingues sans composant externe. La latence est configurable à l'inférence via un paramètre unique (attcontext_size), offrant des modes allant de 80 ms ultra-basse latence jusqu'à 1,12 seconde pour une précision maximale, sans nécessiter de réentraînement. Ce modèle s'attaque directement à l'un des principaux obstacles au déploiement industriel de la transcription vocale en temps réel : la complexité opérationnelle. Jusqu'ici, couvrir plusieurs langues imposait de maintenir autant de modèles distincts, de gérer des pipelines de détection de langue séparés, et de choisir entre latence et précision via des checkpoints différents. Nemotron 3.5 ASR supprime ces trois frictions en un seul déploiement. Pour les équipes produit qui développent des outils de sous-titrage en direct, des assistants vocaux multilingues ou des plateformes de transcription à grande échelle, cela représente une réduction significative de l'infrastructure et du coût d'exploitation. Le fait qu'il soit disponible gratuitement en self-hosting change également la donne face aux services cloud payants comme Nova-3 de Deepgram (~0,0077 $/min) ou Scribe v2 Realtime d'ElevenLabs (~0,28 $/heure). NVIDIA opère depuis plusieurs années une montée en puissance dans le domaine des modèles de traitement du langage parlé, notamment via sa division Nemotron Speech. Ce lancement s'inscrit dans une compétition intense entre acteurs open source et solutions propriétaires : Whisper large-v3 d'OpenAI reste la référence en transcription batch (99 langues, MIT), mais n'est pas natif au streaming ; AssemblyAI (Universal-3 Pro) et Speechmatics se positionnent sur le streaming temps réel, mais avec des couvertures linguistiques plus étroites ou des API fermées. NVIDIA entre dans ce segment avec un modèle à la fois performant, polyglotte et librement hébergeable, ce qui pourrait accélérer son adoption dans les environnements souverains ou à contraintes de confidentialité forte. La prochaine étape probable sera l'intégration dans les pipelines NIM (NVIDIA Inference Microservices) pour simplifier encore le déploiement en production.

UELe modèle couvre explicitement le français parmi ses 40 variantes linguistiques, et son mode self-hosting gratuit facilite le déploiement dans des environnements européens soumis aux exigences de souveraineté des données, réduisant la dépendance aux API cloud américaines payantes.

💬 Un seul checkpoint pour 40 langues en streaming, ponctuation et majuscules intégrées nativement : c'est le genre de truc qu'on attendait depuis 2 ans. Couvrir plusieurs langues en temps réel imposait jusqu'ici de gérer autant de modèles distincts plus un détecteur de langue en amont, bref une usine à gaz. Et là, en self-hosting gratuit face à Deepgram à 0,0077 $ la minute, les équipes qui hésitaient vont vite trancher.

OutilsOpinion
1 source
NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU
54MarkTechPost 

NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU

L'équipe de recherche en IA de NVIDIA a publié Dynamo Snapshot, un système de démarrage rapide pour les charges de travail d'inférence sur Kubernetes, reposant sur une approche de type checkpoint/restore. Le dispositif combine deux outils : CRIU (Checkpoint/Restore in Userspace), qui sérialise l'état CPU d'un processus Linux vers le disque, et cuda-checkpoint, qui capture l'état GPU (contextes CUDA, mémoire device, mappings d'adresses virtuelles) vers la RAM avant que CRIU ne prenne le relais. Le résultat est une image complète de l'état d'un serveur d'inférence en cours d'exécution, stockée sur un système de fichiers partagé (NFS ou SMB), et restaurable sur n'importe quel nœud du cluster. Côté Kubernetes, NVIDIA fournit un DaemonSet privilégié appelé snapshot-agent, déployable via Helm chart, qui gère les opérations de checkpoint et de restauration pour les conteneurs runc sans modification du runtime lui-même. Le problème que résout Dynamo Snapshot est concret et coûteux : le démarrage à froid d'un serveur d'inférence vLLM (version 0.20.0) sur un seul GPU se décompose en trois phases, téléchargement de l'image conteneur, initialisation du moteur (chargement des poids, warmup des kernels CUDA, compilation des graphes), et démarrage du runtime distribué, ce qui peut représenter plusieurs minutes pendant lesquelles les GPU sont alloués mais inactifs, sans générer le moindre token. Dans un environnement de production soumis à des pics de trafic imprévisibles, cette latence de démarrage expose directement les opérateurs à des violations de SLA : le système ne peut pas scaler assez vite pour absorber une hausse soudaine de la demande. Avec Dynamo Snapshot, le processus restauré reprend exactement à l'instruction où il a été figé, sans avoir conscience qu'une interruption s'est produite, réduisant le temps effectif de mise en service à une fraction du démarrage à froid classique. Cette publication s'inscrit dans une course plus large à l'efficacité opérationnelle des infrastructures LLM en production. Kubernetes est devenu le standard de facto pour orchestrer les déploiements d'inférence à grande échelle, mais ses primitives natives de scaling (HPA, KEDA) se heurtent au goulot d'étranglement structurel du cold start GPU. NVIDIA a choisi une approche DaemonSet plutôt que de s'appuyer sur le support natif checkpoint/restore de Kubernetes pour trois raisons : portabilité totale sans dépendance aux feature gates des cloud providers, contrôle fin sur l'état CUDA que les mécanismes standard n'exposent pas, et compatibilité immédiate avec les clusters existants. Le projet Dynamo, dont Snapshot est un composant, représente l'investissement de NVIDIA dans la couche logicielle d'inférence distribuée, un enjeu stratégique alors que la concurrence entre fournisseurs de frameworks (vLLM, TensorRT-LLM, SGLang) s'intensifie autour de la performance au token près.

💬 Le cold start GPU, c'est le boulet silencieux de tout déploiement LLM en prod. NVIDIA règle ça proprement avec du CRIU adapté au contexte CUDA, sans toucher au runtime Kubernetes (et ça, c'est malin, parce que les feature gates cloud c'est le chaos). Reste à voir si ça tient quand tu restaures sur un nœud avec un contexte GPU légèrement différent.

InfrastructureOpinion
1 source
NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
55AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
56Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
57NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

RobotiquePaper
1 source
Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM
58NVIDIA AI Blog 

Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM

NVIDIA a présenté cette semaine NemoClaw lors du GTC Taipei, en marge du salon COMPUTEX, en compagnie d'une douzaine de partenaires logiciels industriels. NemoClaw est un blueprint open source destiné à construire des agents IA autonomes, spécialisés et capables de fonctionner sur de longues durées. Il s'appuie sur OpenShell, un runtime sécurisé qui contrôle l'accès de chaque agent aux fichiers, réseaux et outils via des politiques de sécurité granulaires. La plateforme intègre un routeur de modèles, les bibliothèques NVIDIA NeMo, et supporte plusieurs frameworks d'orchestration comme OpenClaw et Hermes. Elle peut être déployée sur les DGX Spark, en datacenter d'entreprise ou dans le cloud. Cadence, Dassault Systèmes, Siemens et Synopsys figurent parmi les premiers à s'y appuyer pour construire leurs propres agents d'ingénierie. Cadence développe ainsi un agent RTL autonome capable d'orchestrer ChipStack pour la conception et la vérification de circuits numériques, réduisant le temps de vérification RTL de plusieurs semaines à quelques heures. Siemens intègre NemoClaw dans Fuse EDA AI Agent pour les workflows de conception de semi-conducteurs, circuits imprimés et circuits intégrés 3D. Synopsys, de son côté, démontre sur le show floor de COMPUTEX une application à l'optimisation thermique de systèmes de refroidissement GPU avec Ansys Icepak. L'enjeu industriel est considérable : si le calcul accéléré a déjà réduit les temps de simulation de plusieurs semaines à quelques heures, les workflows adjacents, conception assistée par ordinateur, maillage, configuration des simulations, post-traitement, rédaction de rapports, restaient encore largement manuels et chronophages. NemoClaw vise à automatiser cette chaîne complète. Pour les secteurs de l'automobile, de l'aérospatiale, des semi-conducteurs et de la fabrication, la promesse est une compression drastique des cycles de développement produit, avec des agents capables d'explorer des milliers de variantes de conception de manière autonome, de nuit comme de jour, là où une équipe d'ingénieurs aurait besoin de semaines. Au-delà des grands éditeurs, des startups s'emparent également de NemoClaw pour des cas d'usage pointus. Flexcompute utilise OpenShell pour ses agents Tidy3D et PhotonForge dédiés à la conception optique co-packagée, en combinant simulations optiques, électriques et thermiques pour explorer des milliers de variantes et produire des composants plus performants à moindre consommation énergétique, une technologie qu'NVIDIA utilise elle-même pour concevoir ses propres dispositifs photoniques. Luminary s'en sert pour automatiser la génération de données d'entraînement et les boucles d'apprentissage de modèles physiques IA. Neural Concept déploie un agent pour la conception de moteurs électriques enchaînant simulations électromagnétiques, structurelles et vibratoires. Cette mobilisation simultanée d'acteurs majeurs et de startups autour d'une même plateforme signale que NVIDIA cherche à imposer NemoClaw comme standard de facto de l'ingénierie autonome, à l'image de ce que CUDA a représenté pour le calcul GPU.

UEDassault Systèmes, entreprise française de référence dans la CAO industrielle (CATIA, SolidWorks), figure parmi les premiers partenaires de NemoClaw, ce qui pourrait accélérer l'adoption de l'ingénierie autonome dans les filières aérospatiale et automobile européennes.

OutilsActu
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
59The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD
60Ars Technica AI 

Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD

Intel prévoit de commercialiser d'ici la fin 2026 un nouveau processeur d'IA baptisé "Crescent Island", conçu pour concurrencer directement les puces de Nvidia et AMD sur le marché de l'inférence. Kevork Kechichian, directeur du groupe data center d'Intel, a confié au Financial Times que l'entreprise repart "des bases" en proposant un GPU utilisant une mémoire et un système de refroidissement moins coûteux que ceux des solutions rivales. L'objectif affiché est de capitaliser sur le redressement en cours du fabricant américain de semi-conducteurs. "Crescent Island" se concentre sur l'inférence, soit la phase où un utilisateur soumet une requête à un modèle d'IA déjà entraîné, plutôt que sur l'entraînement lui-même, segment encore verrouillé par Nvidia. En misant sur des composants moins onéreux, Intel cherche à proposer une alternative économiquement attractive aux centres de données et aux entreprises qui déploient massivement des services d'IA, sans recourir aux puces haut de gamme H100 ou Blackwell de Nvidia. Un positionnement prix agressif pourrait ouvrir une brèche réelle dans un marché aujourd'hui très concentré. Intel sort d'une période de profonde restructuration, marquée par des retards technologiques et une pression financière intense qui ont fragilisé sa position face à Nvidia et TSMC. Sur le segment de l'inférence, Nvidia détient une part de marché estimée à plus de 80 %, tandis qu'AMD tente de s'y imposer avec ses puces MI300X. Cibler ce créneau avec une offre plus accessible représente pour Intel un pari stratégique cohérent, mais le succès dépendra de la disponibilité réelle des puces et de leur adoption par les grands opérateurs cloud d'ici la fin de l'année.

UELes centres de données et entreprises européens déployant des services d'IA pourraient bénéficier d'une alternative moins coûteuse aux puces Nvidia pour l'inférence d'ici fin 2026.

InfrastructureOpinion
1 source
Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows
61The Decoder 

Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows

Nvidia a présenté le RTX Spark, une puce conçue pour rendre les agents IA locaux véritablement utilisables sur les PC Windows portables. La puce combine un GPU Blackwell avec un processeur Grace basé sur l'architecture Arm, jusqu'à 128 Go de mémoire partagée et une puissance de calcul annoncée à 1 000 TOPS en FP4. Les premiers appareils équipés du RTX Spark seront commercialisés à partir de l'automne 2026 par ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI. Le RTX Spark vise directement les puces Apple Silicon et les processeurs Qualcomm Snapdragon X qui dominent aujourd'hui le segment des PC dits "AI". Disposer de 128 Go de mémoire partagée est un atout décisif : cela permet de faire tourner en local des modèles de langage de grande taille, sans recourir au cloud, avec une latence réduite et une confidentialité des données préservée. Pour les entreprises et les développeurs, cette configuration ouvre la voie à des agents IA autonomes fonctionnant directement sur l'appareil de l'utilisateur, sans dépendance à une connexion Internet. Ce lancement s'inscrit dans la bataille que se livrent les fabricants de puces pour capter le marché des ordinateurs portables à capacités IA embarquées. Apple a pris une avance significative avec ses puces M-series, notamment grâce à leur architecture à mémoire unifiée. Qualcomm a répondu avec les Snapdragon X Elite sur Windows. Nvidia, dont la domination est historiquement liée aux datacenters et aux GPU discrets, cherche à s'imposer dans le segment mobile avec une approche intégrée CPU-GPU inédite sous Windows. L'automne 2026 marquera un test grandeur nature pour cette stratégie face à des concurrents déjà bien installés.

UELes PC équipés du RTX Spark arriveront en Europe à l'automne 2026, offrant aux entreprises françaises et européennes des capacités d'IA locale sans dépendance au cloud, un atout direct en contexte RGPD.

InfrastructureActu
1 source
NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises
62Le Big Data 

NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises

NVIDIA a dévoilé le 1er juin 2026, lors du GTC Taipei, la DGX Station pour Windows, présentée comme le superordinateur IA de bureau le plus puissant au monde. Propulsée par la puce GB300 Grace Blackwell Ultra Desktop Superchip, qui associe un GPU Blackwell Ultra à un processeur Grace de 72 cœurs via l'interconnexion NVLink-C2C, la machine offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops de performances en FP4. Elle peut exécuter localement des modèles d'intelligence artificielle atteignant 1 000 milliards de paramètres, et faire tourner plusieurs centaines d'agents IA simultanément. Commercialisée au quatrième trimestre 2026 par ASUS, Dell Technologies, MSI et Supermicro, la station intègre également une carte réseau ConnectX-8 SuperNIC à 800 Gbit/s, permettant d'interconnecter plusieurs unités entre elles pour des charges de travail encore plus exigeantes. L'enjeu central de cette annonce est de réconcilier la puissance des infrastructures de datacenter avec l'environnement Windows, dans lequel travaillent au quotidien la grande majorité des équipes en entreprise : développeurs, ingénieurs, data scientists, concepteurs 3D. Jusqu'ici, les projets IA les plus ambitieux reposaient quasi exclusivement sur des serveurs Linux hébergés dans le cloud ou dans des centres de données, créant un fossé entre les outils de production IA et les environnements de travail réels. Avec la DGX Station, NVIDIA cible directement ce décalage en permettant le développement, le test et le déploiement d'agents IA autonomes au plus près des applications métier, sans dépendance au cloud. Pour les organisations soucieuses de souveraineté des données, l'exécution locale des modèles permet aussi de limiter les transferts vers des infrastructures externes. Cette machine s'inscrit dans un tournant plus large de l'industrie : les entreprises ne cherchent plus seulement à intégrer des chatbots, mais à déployer des agents capables de raisonner, d'interagir avec plusieurs logiciels et d'automatiser des tâches complexes en continu. NVIDIA répond à cette demande en combinant la plateforme OpenShell, conçue pour construire et exécuter des agents sécurisés sous Windows, avec la densité de calcul de l'architecture Blackwell. La possibilité d'y coupler une carte RTX PRO 6000 Blackwell ajoute des capacités de visualisation et de simulation, élargissant encore le spectre des usages. Cette annonce confirme également la stratégie de NVIDIA de pénétrer l'entreprise non plus seulement par le datacenter, mais directement par le poste de travail, en faisant de la puissance de calcul IA une ressource locale, accessible et intégrée aux flux de travail existants.

UELes organisations européennes soumises au RGPD pourraient bénéficier de la capacité à exécuter localement des modèles d'IA volumineux, réduisant leur dépendance aux infrastructures cloud extra-européennes.

💬 20 pétaflops sur un bureau Windows, ça fait mal aux yeux. NVIDIA joue un coup malin : au lieu de vendre encore du datacenter, ils ramènent la puissance là où les équipes bossent au quotidien, sans passer par le cloud. Bon, la facture va être salée, mais pour une boîte avec des modèles sensibles et une DSI soucieuse du RGPD, c'est le premier argument solide.

Faut-il dire adieu à la souris ? Windows lance l’IA qui clique et tape à votre place depuis la barre des tâches grâce à Nvidia
63Frandroid 

Faut-il dire adieu à la souris ? Windows lance l’IA qui clique et tape à votre place depuis la barre des tâches grâce à Nvidia

Microsoft et NVIDIA ont annoncé conjointement OpenShell, un runtime conçu pour transformer la barre des tâches de Windows en point de lancement d'agents IA autonomes. Ces agents sont capables d'interagir directement avec les applications installées sur le PC, en cliquant, en tapant et en naviguant à la place de l'utilisateur, sans intervention humaine. Les démonstrations présentées montrent des scénarios concrets où l'IA effectue des tâches complexes dans des logiciels tiers, du traitement de fichiers à la navigation dans des interfaces graphiques. L'impact potentiel est considérable, tant pour le grand public que pour les professionnels. Un utilisateur pourrait déléguer des tâches répétitives, comme remplir des formulaires, réorganiser des fichiers ou compiler des données, en donnant simplement une instruction en langage naturel. Pour les entreprises, cela ouvre la voie à une automatisation de bureau sans code, directement intégrée au système d'exploitation, sans passer par des outils tiers comme AutoHotkey ou des plateformes RPA spécialisées. Cette annonce s'inscrit dans la course que se livrent les géants technologiques pour intégrer l'IA agentique au coeur des systèmes d'exploitation. Microsoft pousse depuis plusieurs mois sa vision Copilot+ PC, tandis que NVIDIA apporte sa puissance de traitement GPU locale pour faire tourner ces modèles sans dépendre du cloud. OpenShell représente un pas vers un PC véritablement "piloté" par l'IA, une évolution qui soulève aussi des questions sur la sécurité des accès applicatifs et le contrôle laissé à l'utilisateur.

UELes entreprises françaises et européennes pourraient accéder à une automatisation de bureau sans code directement intégrée à Windows, mais les accès applicatifs autonomes soulèvent des questions de conformité RGPD pour les données manipulées par ces agents.

OutilsOutil
1 source
Bye-bye Nvidia : le coup de poker de BYD avec sa puce autonome Xuanji A3 en 4 nm
64Frandroid 

Bye-bye Nvidia : le coup de poker de BYD avec sa puce autonome Xuanji A3 en 4 nm

BYD a présenté le 28 mai 2026 sa puce Xuanji A3, gravée en 4 nanomètres, conçue entièrement en interne par ses équipes. Le constructeur chinois la positionne comme la première puce automobile domestique à ce niveau de finesse de gravure, certifiée pour la conduite autonome de niveaux 3 et 4, soit des systèmes capables de gérer seuls la route dans des conditions définies, sans intervention permanente du conducteur. BYD affirme être désormais le seul acteur au monde à maîtriser l'intégralité de la chaîne de développement du silicium pour l'automobile, de la conception à l'intégration. La portée stratégique est considérable : en développant ses propres puces, BYD s'affranchit de sa dépendance à Nvidia, dont les processeurs Drive sont au cœur de la plupart des systèmes d'assistance à la conduite haut de gamme dans l'industrie. Pour le groupe de Shenzhen, déjà premier constructeur mondial de véhicules électriques, cette intégration verticale représente un levier de différenciation massif, maîtrise des coûts, indépendance face aux restrictions d'export américaines sur les semi-conducteurs, et accélération des cycles de développement. Ce mouvement s'inscrit dans une dynamique plus large de la Chine pour conquérir son autonomie technologique dans les puces avancées. Les sanctions américaines sur l'export de composants Nvidia vers la Chine ont accéléré les investissements locaux, poussant constructeurs et géants tech à internaliser ce qui était jusqu'ici externalisé. BYD rejoint ainsi Huawei, qui développe ses propres puces automobiles via la plateforme ADS, dans une course au silicium qui redessine les alliances du secteur automobile mondial.

UEL'intégration verticale de BYD dans les puces autonomes renforce sa compétitivité face aux constructeurs européens (Renault, Stellantis, Volkswagen), qui restent dépendants de fournisseurs tiers comme Nvidia pour leurs systèmes de conduite autonome.

💬 BYD qui sort sa propre puce en 4 nm, c'est l'étape qui rend tous leurs autres investissements cohérents. Renault, Volkswagen, ils dépendent encore de Nvidia pour leurs systèmes de conduite, BYD non, et cette indépendance-là va se traduire en avantage prix très vite. C'est ça qui devrait inquiéter nos constructeurs.

InfrastructureOpinion
1 source
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
65MarkTechPost 

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway. L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles. L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.

RecherchePaper
1 source
Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable
66NVIDIA AI Blog 

Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable

Les premiers benchmarks publics du processeur Vera de NVIDIA, publiés le 27 mai 2026 par le site spécialisé Phoronix, révèlent des performances qui pourraient redessiner le paysage des processeurs pour centres de données. Le CPU Vera, conçu autour de 88 cœurs personnalisés baptisés Olympus et compatibles avec l'architecture Armv9.2, affiche une bande passante mémoire de 1,2 To/s grâce à un sous-système LPDDR5X de deuxième génération. Le tout dans une enveloppe thermique de 450 watts pour le processeur, avec moins de 30 watts dédiés à la mémoire. Les tests couvrent un large spectre de charges de travail : compilation de code, compression de fichiers, transcodage vidéo, Python, Java et gestion de bases de données. Michael Larabel, fondateur de Phoronix, conclut sans ambages : "C'est la concurrence la plus redoutable jamais vue face aux processeurs Intel et AMD x86_64." Ces résultats ont une portée directe pour les entreprises qui construisent des infrastructures d'IA agentique, c'est-à-dire des systèmes où des agents autonomes exécutent simultanément du code, interrogent des bases de données et orchestrent des pipelines complexes. Sur le test STREAM TRIAD, Vera soutient 90% de sa bande passante mémoire de pointe, un taux qu'aucun autre processeur testé par Phoronix n'a atteint, tout en délivrant plus de quatre fois la bande passante mémoire par cœur comparé aux CPU x86 traditionnels. La société Prime Intellect a confirmé, dans des tests séparés, que Vera maintient une bande passante élevée et une latence mémoire faible et stable à mesure que le nombre de processus parallèles augmente. Pour les opérateurs d'infrastructures IA, cela se traduit par moins de serveurs nécessaires pour un même volume de travail, et une facture énergétique réduite. NVIDIA a présenté Vera comme la réponse architecturale au virage vers l'IA agentique, qui impose aux processeurs des contraintes différentes de celles du deep learning classique : moins de calcul matriciel massif, davantage de traitement séquentiel, de branchements conditionnels et d'accès mémoire dispersés. Par rapport au processeur Grace de génération précédente, Vera affiche un gain de 1,6x en moyenne géométrique sur l'ensemble des benchmarks Phoronix, une progression que Larabel qualifie de "constamment au-delà de ce qu'on attend d'une génération à l'autre". Ce lancement intervient dans un contexte où AMD EPYC et Intel Xeon dominent encore les data centers d'entreprise, mais où NVIDIA cherche à imposer ses propres CPU aux côtés de ses GPU dans des plateformes intégrées. La prochaine étape sera de voir si ces performances en benchmark se confirment dans des déploiements de production à grande échelle, notamment dans les grandes fermes d'IA où le coût total par inférence reste le critère ultime.

UELes opérateurs de centres de données européens pourraient réduire leur consommation énergétique et le nombre de serveurs nécessaires pour leurs charges IA agentique, un avantage concret dans le contexte des objectifs européens de sobriété numérique.

InfrastructureActu
1 source
NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta
67MarkTechPost 

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta

NVIDIA AI a publié Gated DeltaNet-2, une nouvelle couche d'attention linéaire conçue pour résoudre un problème précis dans les modèles de langage à mémoire récurrente. Le modèle a été entraîné à 1,3 milliard de paramètres sur 100 milliards de tokens issus du jeu de données FineWeb-Edu. Selon les benchmarks présentés dans l'article technique, il surpasse ses concurrents directs : Mamba-2, Gated DeltaNet, KDA (Kimi Delta Attention) et Mamba-3. L'innovation centrale repose sur l'introduction de deux portes vectorielles indépendantes : une porte d'effacement par canal appliquée à l'axe des clés, et une porte d'écriture par canal appliquée à l'axe des valeurs. Les deux sont produites par des projections sigmoid de la représentation du token. Le code et l'article sont disponibles publiquement via le dépôt NVlabs sur GitHub, avec des kernels Triton fusionnés pour l'entraînement sur GPU Hopper. L'enjeu est fondamental pour la prochaine génération de modèles de langage efficaces. L'attention linéaire remplace le cache clé-valeur non borné de l'attention softmax classique par un état récurrent de taille fixe, ce qui ramène le coût de traitement des séquences à une complexité linéaire et la mémoire de décodage à une constante. Mais éditer cet état compressé sans brouiller les associations déjà mémorisées est précisément le goulet d'étranglement que les architectures précédentes n'avaient pas résolu proprement. Les modèles antérieurs utilisaient une seule valeur scalaire pour contrôler à la fois l'effacement de l'ancien contenu et l'écriture du nouveau, deux opérations qui agissent sur des axes différents de l'état matriciel. Gated DeltaNet-2 sépare ces deux décisions : chaque canal peut indépendamment choisir combien il efface et combien il écrit, ce qui augmente la capacité expressive du modèle sans alourdir l'architecture globale. Cette publication s'inscrit dans une compétition technique dense autour du remplacement ou de la complémentation de l'attention softmax. DeltaNet avait introduit la règle delta, qui effectue une mise à jour active de l'état en soustrayant la valeur actuellement associée à une clé donnée. Mamba-2 avait ajouté un mécanisme d'oubli global scalaire dépendant des données. KDA, développé par l'équipe de Kimi (Moonshot AI), avait affiné le côté oubli avec un vecteur par canal, mais laissait la partie écriture avec un scalaire unique. Gated DeltaNet-2 généralise ces deux travaux : les modèles KDA et Gated DeltaNet sont mathématiquement récupérables comme cas particuliers lorsque les portes se réduisent à des scalaires identiques. NVIDIA positionne ainsi cette architecture comme un surensemble propre de l'existant, avec une implémentation hybride qui combine blocs récurrents et structure Transformer standard, ouvrant la voie à des modèles longs contextes à la fois rapides à l'inférence et précis.

UEL'architecture étant publiée en open source avec des kernels Triton, les équipes de recherche françaises et européennes peuvent l'intégrer directement dans leurs travaux sur les modèles de langage à complexité linéaire.

💬 Deux portes au lieu d'un scalaire, ça change pas le monde mais ça ferme proprement un trou que tout le monde contournait. Effacer et écrire dans l'état récurrent avec la même valeur, c'était une limitation un peu honteuse qui traînait depuis DeltaNet. Open source, kernels Triton inclus, les labos qui bossent sur l'attention linéaire vont s'en emparer.

RecherchePaper
1 source
Test du Nvidia DGX Spark : le mini PC IA 128 Go
68Frandroid 

Test du Nvidia DGX Spark : le mini PC IA 128 Go

Nvidia a lancé le DGX Spark, un mini PC dédié à l'intelligence artificielle locale, testé ici dans sa version assemblée par Dell sous le label Pro Max. Au cœur de la machine se trouve la puce maison GB10 Grace Blackwell Superchip, couplée à 128 Go de mémoire unifiée partagée entre le CPU et le GPU. Le tout tient dans un boîtier compact comparable à un Mac Mini, pour un tarif qui démarre autour de 3 000 dollars selon les configurations. Ce facteur de forme cache une puissance de calcul jusqu'ici réservée aux serveurs de datacenter : le DGX Spark est capable de faire tourner des modèles de langage de 70 milliards de paramètres et plus directement en local, sans dépendre du cloud. Pour les chercheurs, développeurs et entreprises soucieuses de confidentialité ou de latence, c'est un changement de paradigme concret. La mémoire unifiée de 128 Go élimine le goulot d'étranglement qui rendait ces modèles inaccessibles sur du matériel grand public. Le DGX Spark s'inscrit dans une offensive plus large de Nvidia pour étendre son emprise au-delà des grands clusters GPU, face à la montée en puissance des puces Apple Silicon M4 Ultra qui misent sur la même architecture de mémoire unifiée. Annoncé au CES 2025, le Spark cible une clientèle professionnelle et académique qui veut l'autonomie du local sans sacrifier la performance. Nvidia le positionne également comme point d'entrée vers son écosystème DGX, dont les versions rack coûtent des centaines de milliers de dollars.

UELes professionnels et chercheurs français et européens peuvent désormais faire tourner des modèles de 70 milliards de paramètres en local pour environ 3 000 dollars, réduisant la dépendance au cloud pour les cas d'usage sensibles en matière de confidentialité.

💬 128 Go de mémoire unifiée pour faire tourner un 70B en local, c'est le verrou qui saute. Nvidia a regardé ce qu'Apple faisait avec le M-Series et a poussé le même concept bien plus loin, sur une puce qui cible les workloads sérieux. 3 000 dollars c'est pas donné, mais pour une boîte qui veut garder ses données chez elle sans louer du GPU à la journée, le calcul se fait vite.

InfrastructureOpinion
1 source
Nvidia bat tous les records et SpaceX vise des horizons illimités
69The Information AI 

Nvidia bat tous les records et SpaceX vise des horizons illimités

Nvidia a publié mercredi des résultats trimestriels qui dépassent une fois de plus les attentes les plus optimistes. Sur le premier trimestre de son exercice fiscal 2027, couvrant le mois d'avril, le géant des puces pour l'intelligence artificielle a enregistré une croissance de ses revenus de 85 % par rapport à la même période de l'année précédente. Plus impressionnant encore, la société prévoit une accélération à 95 % pour le trimestre suivant. La trésorerie générée illustre cette puissance industrielle : le free cash flow du seul trimestre s'élève à 48,6 milliards de dollars, soit la moitié de ce que Nvidia avait produit sur l'ensemble de l'exercice 2026. Ces chiffres témoignent d'une demande en puces IA qui ne montre aucun signe de ralentissement, portée par les investissements massifs des hyperscalers comme Microsoft, Google ou Amazon dans leurs infrastructures de calcul. L'accélération de la croissance, qui passe de 66 % l'an dernier à 85 % puis à un objectif de 95 %, suggère que le pic de ce cycle d'investissement n'a pas encore été atteint. Pour l'industrie technologique, Nvidia s'impose chaque trimestre davantage comme une infrastructure critique, au même titre que les réseaux électriques pour l'économie traditionnelle. Pourtant, la journée du mercredi a été dominée par une autre nouvelle : SpaceX a officiellement déposé ses documents d'introduction en bourse, rendant publique pour la première fois la structure financière de l'entreprise d'Elon Musk. L'opération est attendue comme la plus grande IPO de l'histoire des marchés américains, et les médias financiers suivent chaque étape depuis des mois. OpenAI prépare également sa propre entrée en bourse. Ces deux échéances pourraient redéfinir les valorisations de référence pour les entreprises d'IA et de technologie spatiale, dans un contexte boursier particulièrement attentif aux actifs liés à l'intelligence artificielle.

UELa croissance soutenue du marché des puces IA renforce la dépendance structurelle de l'Europe aux fournisseurs américains, limitant la souveraineté technologique des acteurs français et européens.

💬 48 milliards de free cash flow en un seul trimestre, c'est la moitié de ce que Nvidia produisait sur un an entier il y a peu. Ce qui frappe, c'est pas le chiffre, c'est l'accélération : on attendait le pic depuis des mois, et c'est l'inverse qui se passe, 95 % de croissance prévue au prochain trimestre. Pour l'Europe, c'est un problème qui se creuse tranquillement, parce que cette infrastructure-là on ne la construit pas chez nous.

BusinessActu
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
70MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
71MarkTechPost 

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4. Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée. Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

UELes chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

CréationOpinion
1 source
Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire
72Frandroid 

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

Nvidia a franchi ce mercredi 13 mai 2026 le seuil des 5 500 milliards de dollars de capitalisation boursière, un record absolu dans l'histoire des marchés financiers. Jamais aucune entreprise n'avait atteint une telle valorisation. Pour mettre ce chiffre en perspective, Nvidia pèse désormais plus d'une fois et demie le PIB annuel de la France, qui s'établit autour de 3 200 milliards de dollars. Le groupe californien, fondé par Jensen Huang, s'est imposé comme le fournisseur incontournable de puces GPU utilisées pour entraîner et faire tourner les modèles d'intelligence artificielle. Cette valorisation record illustre l'appétit insatiable des marchés pour tout ce qui touche à l'IA générative. Nvidia capte une part écrasante des dépenses d'infrastructure des géants technologiques, Microsoft, Google, Amazon, Meta, qui investissent des centaines de milliards de dollars dans leurs datacenters. Ses puces H100, H200 et Blackwell sont en rupture chronique depuis deux ans, ce qui confère à l'entreprise un pouvoir de fixation des prix exceptionnel et des marges brutes dépassant 70 %. Nvidia a profité d'une longueur d'avance stratégique grâce à CUDA, son écosystème logiciel développé depuis 2006, qui a rendu ses GPU quasi indétrônables dans la recherche et l'industrie IA. Ses concurrents, AMD et Intel côté puces, ou les solutions maison de Google (TPU) et Amazon (Trainium), peinent encore à rogner sa domination. La question qui se pose désormais est de savoir si cette croissance est soutenable, ou si un ralentissement des investissements en IA pourrait provoquer une correction aussi spectaculaire que l'ascension.

UELes startups et entreprises européennes développant des solutions IA restent structurellement dépendantes des puces Nvidia, dont les prix élevés et la pénurie chronique renchérissent le coût d'accès à l'infrastructure IA sur le marché européen.

InfrastructureOpinion
1 source
NVIDIA a déjà investi 40 milliards de dollars dans des accords IA en 2026
73Le Big Data 

NVIDIA a déjà investi 40 milliards de dollars dans des accords IA en 2026

En à peine cinq mois depuis le début de l'année 2026, NVIDIA a engagé plus de 40 milliards de dollars dans des accords liés à l'intelligence artificielle. L'investissement le plus massif reste une mise de 30 milliards de dollars dans OpenAI, le créateur de ChatGPT. Le groupe a également conclu un accord pouvant atteindre 2,1 milliards de dollars avec IREN, opérateur de centres de données, pour déployer 5 gigawatts d'infrastructures NVIDIA DSX. Quelques jours plus tôt, c'est Corning qui annonçait un partenariat à hauteur de 3,2 milliards de dollars pour construire trois usines dédiées aux technologies optiques. En mars, NVIDIA avait aussi investi 2 milliards dans Marvell Technology, ainsi que dans les spécialistes de la photonique Lumentum et Coherent. Dans le cloud IA, le groupe soutient les néoclouds CoreWeave et Nebius Group avec 2 milliards chacun. Au total, Jensen Huang dirige une entreprise valorisée à environ 5 200 milliards de dollars, dont l'action a été multipliée par plus de 11 en quatre ans. Cette stratégie va bien au-delà de la simple diversification financière : NVIDIA cherche à contrôler l'ensemble de la chaîne de valeur de l'IA, des puces jusqu'aux infrastructures qui les font tourner. En finançant les fournisseurs cloud, les opérateurs de data centers, les fabricants de composants optiques et les grandes startups IA, le groupe s'assure que chaque maillon de l'écosystème dépend de ses technologies. Jensen Huang l'a lui-même résumé en déclarant vouloir "soutenir tout le monde" plutôt que "désigner un seul gagnant", une posture qui lui permet de couvrir plusieurs scénarios concurrentiels à la fois. Le groupe a généré 97 milliards de dollars de free cash flow en 2025, ce qui rend ce rythme d'investissement soutenable à court terme. Cette mécanique suscite néanmoins des inquiétudes croissantes à Wall Street. Plusieurs analystes pointent une logique circulaire potentiellement fragile : NVIDIA investit dans des entreprises qui achètent ses GPU pour construire leurs infrastructures, et leur fournit parfois directement des ressources de calcul. Certains observateurs comparent cette boucle à une bulle auto-entretenue. La domination de NVIDIA sur le marché des puces IA est le fruit de l'explosion de l'IA générative depuis 2022, mais la concurrence monte, avec AMD, Intel et les puces propriétaires développées par Google, Amazon et Microsoft. La capacité du groupe à maintenir sa position dominante tout en tissant ce réseau d'alliances financières déterminera si cette stratégie est un masterstroke industriel ou un risque systémique pour l'ensemble de l'écosystème IA mondial.

UELa stratégie d'intégration verticale de NVIDIA renforce sa domination sur l'ensemble de la chaîne IA mondiale, accentuant la dépendance des acteurs européens vis-à-vis des infrastructures et puces américaines.

InfrastructureOpinion
1 source
Le Pentagone signe des accords IA confidentiels avec OpenAI, Google et Nvidia, mais pas Anthropic
74The Verge AI 

Le Pentagone signe des accords IA confidentiels avec OpenAI, Google et Nvidia, mais pas Anthropic

Le Pentagone a officialisé des accords d'accès classifié avec OpenAI, Google, Microsoft, Amazon, Nvidia, xAI d'Elon Musk et la startup Reflection, permettant à ces entreprises de fournir leurs outils d'intelligence artificielle à des usages militaires sensibles. L'annonce a été faite vendredi par le département de la Défense américain. OpenAI et xAI avaient déjà conclu des ententes préalables encadrant l'usage "légal" de leurs systèmes, Google ayant quant à lui finalisé un accord similaire selon The Information. Microsoft et Amazon, déjà profondément implantés dans les infrastructures cloud du gouvernement américain via leurs offres souveraines, rejoignent officiellement ce cercle restreint. Ce qui retient l'attention est autant l'inclusion que l'exclusion : Anthropic, qui faisait auparavant partie des prestataires IA du Pentagone pour le traitement d'informations classifiées, a été écarté, le ministère l'ayant désigné comme un "risque de chaîne d'approvisionnement". C'est une rupture significative pour l'entreprise fondée par Dario Amodei, dont la stratégie de sécurité et d'alignement avait jusqu'ici semblé attrayante pour les institutions gouvernementales exigeantes. Cette décision s'inscrit dans une course accélérée entre les grands acteurs de l'IA pour sécuriser des contrats fédéraux américains, marché estimé à plusieurs dizaines de milliards de dollars sur la prochaine décennie. Le label "risque fournisseur" appliqué à Anthropic pourrait refléter des préoccupations liées aux investisseurs étrangers au capital de l'entreprise, notamment Saudi Aramco. Pour les entreprises sélectionnées, l'accès aux environnements classifiés représente un avantage concurrentiel considérable et une validation stratégique au plus haut niveau institutionnel.

UELa désignation d'un prestataire IA comme 'risque de chaîne d'approvisionnement' en raison d'investisseurs étrangers pourrait inspirer des critères similaires dans les appels d'offres européens pour les systèmes IA à usage sensible ou gouvernemental.

BusinessOpinion
1 source
BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte
75NVIDIA Developer Blog 

BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte

NVIDIA a annoncé une avancée majeure dans son framework BioNeMo avec l'intégration du parallélisme de contexte, une technique permettant de distribuer le traitement de longues séquences biologiques sur plusieurs GPU simultanément. Pendant des décennies, la biologie computationnelle s'était heurtée à une contrainte fondamentale : la mémoire limitée d'un seul GPU obligeait les chercheurs à fragmenter les protéines complexes en sous-unités isolées pour les modéliser. BioNeMo franchit désormais ce seuil en permettant le repliement de protéines entières et de complexes moléculaires sans découpage préalable, ce que les spécialistes appellent le repliement "zero-shot". L'impact est direct pour les laboratoires pharmaceutiques et les équipes de biologie structurale : modéliser des protéines longues ou des assemblages multi-chaînes avec précision, sans sacrifier la cohérence structurelle liée à la fragmentation artificielle. Le "fossé de contexte", cet angle mort où les grandes molécules devenaient inaccessibles aux modèles d'IA faute de mémoire, disparaît avec cette approche, ouvrant la voie à des prédictions structurelles bien plus fidèles à la réalité cellulaire. Cette évolution s'inscrit dans la course que se livrent les grands acteurs technologiques pour dominer la biologie computationnelle à l'ère de l'IA. NVIDIA positionne BioNeMo comme la plateforme de référence pour les modèles de fondation biomoléculaires, face à des concurrents comme DeepMind avec AlphaFold ou Evo de Arc Institute. Le parallélisme de contexte, déjà éprouvé dans la formation de grands modèles de langage via Megatron-LM, est ici adapté aux spécificités des séquences biologiques, signal fort que les techniques d'entraînement LLM migrent activement vers les sciences du vivant.

UELes laboratoires pharmaceutiques et instituts de recherche européens (Sanofi, Institut Pasteur, universités de médecine) pourraient bénéficier d'une modélisation protéique plus précise et sans fragmentation, accélérant potentiellement la découverte de médicaments et la recherche biomédicale.

RecherchePaper
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
76AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs
77VentureBeat AI 

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

Google a dévoilé mardi soir sa huitième génération de puces TPU (Tensor Processing Units) lors d'une présentation privée au F1 Plaza de Las Vegas. Contrairement aux générations précédentes, cette fois Google lance deux puces distinctes : le TPU 8t, conçu pour l'entraînement de grands modèles d'IA, et le TPU 8i, taillé pour l'inférence agentique à faible latence. Le TPU 8t affiche 2,8 fois les EFlops FP4 par pod par rapport à la génération précédente (121 contre 42,5), double la bande passante scale-up à 19,2 Tb/s par puce, et permet de relier plus d'un million de TPUs dans un seul job d'entraînement grâce à une nouvelle architecture réseau baptisée Virgo. Le TPU 8i, lui, multiplie par 9,8 les EFlops FP8 par pod (11,6 contre 1,2), par 6,8 la capacité HBM (331,8 To contre 49,2), et fait quadrupler la taille des pods (de 256 à 1 152 puces). Les deux chips doivent être disponibles courant 2025. L'enjeu pour Google est d'abord économique. En fabriquant ses propres puces, Google échappe aux marges d'Nvidia, qui a transformé sa position de quasi-monopole sur les accélérateurs IA en l'une des valorisations boursières les plus élevées au monde. Amin Vahdat, vice-président senior et chief technologist AI & Infrastructure chez Google, a insisté sur l'intégration verticale totale de la stack Google, du silicium au logiciel, comme levier de compétitivité sur le coût par token. Pour les clients enterprise qui entraînent des modèles ou déploient des agents en production sur Google Cloud et Vertex AI, cela se traduit concrètement : jusqu'à présent, les mêmes accélérateurs servaient à la fois pour l'entraînement et l'inférence, avec les inefficacités que cela implique. La génération v8 est la première à traiter ces deux charges de travail comme des problèmes distincts, avec deux siliciums dédiés. La décision de scinder la feuille de route en deux puces a été prise en 2024, soit un an avant que le reste de l'industrie ne pivote massivement vers les modèles de raisonnement, les agents et le reinforcement learning. "Deux ans avant tout le monde, nous avions compris qu'une puce par an ne suffirait plus", a résumé Vahdat. Pour le TPU 8i, Google a développé avec Google DeepMind une topologie réseau inédite appelée Boardfly, conçue pour réduire la latence plutôt que de maximiser le débit, un choix crucial pour les agents IA qui doivent répondre en temps réel. Le TPU 8t introduit également le TPU Direct Storage, qui achemine les données depuis le stockage directement dans la mémoire HBM sans passer par le CPU, réduisant le temps nécessaire à chaque epoch d'entraînement. Google positionne clairement cette génération comme une rupture technologique destinée à creuser l'écart avec ses concurrents sur le marché du cloud IA.

UELes entreprises européennes utilisant Google Cloud pour l'entraînement de modèles IA ou le déploiement d'agents en production pourraient bénéficier d'un coût par token réduit grâce à la spécialisation des puces TPU v8.

InfrastructureOpinion
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
78NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source
Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027
79Le Big Data 

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027

Nvidia a officiellement confirmé le lancement de son prochain GPU phare, le Rubin Ultra, prévu pour 2027. Successeur du Blackwell Ultra, cette puce repose sur une architecture en chiplets de type MCM (Multi-Chip Module) assemblant quatre dies gravés en nœud N2 chez TSMC, pour un total d'environ 336 milliards de transistors. Elle s'intègre dans la plateforme Vera, un écosystème complet où le GPU collabore avec le processeur Vera, doté de 88 cœurs, via une interconnexion NVLink-C2C sans latence. Le tout est relié par le nouveau commutateur NVLink 6, conçu pour des vitesses de transfert inédites à l'échelle des racks de serveurs. La mémoire intégrée atteint 1 To de HBM4e répartis sur 12 stacks, avec une bande passante annoncée à 22 To/s, soit un bond considérable par rapport aux générations précédentes. Ce niveau de performance change concrètement la donne pour les entreprises qui entraînent ou déploient des grands modèles de langage. Avec 1 To de mémoire embarquée sur une seule puce, il devient possible de charger des modèles entiers sans recourir à des échanges lents entre composants, l'un des goulots d'étranglement structurels des infrastructures actuelles. L'architecture en chiplets apporte par ailleurs une modularité absente des puces monolithiques : la montée en charge des clusters de serveurs devient plus fluide, et chaque unité de calcul peut fonctionner en coordination étroite avec les autres. Pour les opérateurs de data centers et les hyperscalers, le Rubin Ultra ne représente pas un simple upgrade de performance, mais une refonte de ce que l'on appelle désormais les "AI Factories", ces infrastructures entièrement conçues autour des besoins du calcul IA. Nvidia accélère son calendrier de manière visible : le Rubin Ultra arrivera en 2027, mais son architecture est déjà documentée et ses partenariats hardware (TSMC N2, HBM4e) sont scellés, signalant une volonté de garder plusieurs générations d'avance sur ses concurrents AMD et Intel, ainsi que sur les puces maison développées par Google (TPU), Amazon (Trainium) et Microsoft (Maia). La transition vers les chiplets, longtemps réservée aux CPU, marque un tournant pour les GPU de datacenter. L'intégration verticale de la plateforme Vera, qui lie hardware et software de façon indissociable, rappelle la stratégie d'Apple avec ses puces M, mais appliquée à l'échelle des supercalculateurs industriels. Les entreprises qui visent ces infrastructures devront consentir des investissements massifs, mais la dépendance à l'écosystème Nvidia, déjà forte via CUDA, ne fera que s'approfondir avec cette nouvelle génération.

UELes opérateurs européens de data centers et les hyperscalers devront planifier dès maintenant des investissements massifs pour 2027, tout en s'enfermant davantage dans l'écosystème Nvidia via CUDA et la plateforme Vera.

InfrastructureOpinion
1 source
80NVIDIA AI Blog 

NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026

NVIDIA et ses partenaires industriels investissent Hannover Messe 2026, le salon phare de l'industrie manufacturière qui se tient du 20 au 24 avril à Hanovre, en Allemagne, pour y présenter ce qu'ils considèrent comme la prochaine révolution de la production : l'usine pilotée par l'intelligence artificielle. Au programme, des démonstrations concrètes couvrant l'informatique accélérée, la simulation physique en temps réel, les agents autonomes et les robots humanoïdes opérant en environnement industriel. Parmi les temps forts, l'annonce de l'Industrial AI Cloud, l'un des plus grands centres d'IA d'Europe, construit en Allemagne par Deutsche Telekom sur infrastructure NVIDIA. Des géants comme SAP, Siemens, ABB, Dassault Systèmes, Cadence ou encore Synopsys y participent, aux côtés d'acteurs spécialisés comme Agile Robots, Wandelbots et PhysicsX. EDAG, prestataire indépendant d'ingénierie, a par ailleurs annoncé le déploiement de sa plateforme de métavers industriel "metys" sur ce cloud souverain, ciblant l'automobile et l'ingénierie lourde. L'enjeu est considérable : l'industrie manufacturière mondiale fait face à une pression simultanée sur les cycles de conception, les coûts opérationnels et la disponibilité de main-d'œuvre qualifiée. L'IA n'est plus une option expérimentale mais un levier de compétitivité immédiat. Les jumeaux numériques à l'échelle d'une usine entière, construits sur les bibliothèques Omniverse de NVIDIA et le standard ouvert OpenUSD, permettent désormais de simuler, tester et optimiser des lignes de production en continu, sans interruption physique. ABB, par exemple, intègre ces outils dans sa suite Genix pour analyser la performance des équipements et accélérer la recherche de causes de pannes via des agents IA. Pour les ingénieurs, la simulation physique en temps réel change radicalement le processus de conception : là où des heures de calcul étaient nécessaires, des résultats apparaissent en secondes. Cette offensive de NVIDIA dans l'industrie s'inscrit dans une stratégie plus large visant à faire de l'informatique accélérée le socle de la transformation industrielle européenne. Le concept de "souveraineté numérique" est central : face aux craintes européennes de dépendance aux clouds américains, l'Industrial AI Cloud positionné en Allemagne répond à une demande politique autant qu'économique. CUDA-X, Omniverse, les modèles ouverts Nemotron et les puces NVIDIA équipent désormais les logiciels des éditeurs les plus influents du secteur, de Siemens à Dassault Systèmes, créant un écosystème interdépendant difficile à contourner. Dell, IBM, Lenovo et PNY complètent l'offre avec des systèmes accélérés déployables de la périphérie jusqu'aux datacenters. La prochaine étape, déjà visible à Hanovre, est l'intégration de robots humanoïdes dans les chaînes de production, un marché où NVIDIA entend jouer un rôle d'infrastructure aussi structurant que dans l'IA générative.

UEL'Industrial AI Cloud inauguré en Allemagne par Deutsche Telekom sur infrastructure NVIDIA, avec la participation de Dassault Systèmes et Siemens, offre aux industriels européens une infrastructure cloud souveraine pour déployer l'IA en production.

InfrastructureActu
1 source
NVIDIA vient de tuer le rendu 3D classique : découvrez Lyra 2.0 !
81Le Big Data 

NVIDIA vient de tuer le rendu 3D classique : découvrez Lyra 2.0 !

NVIDIA a publié le 15 avril 2026 Lyra 2.0, un nouveau framework de recherche capable de générer des environnements 3D persistants et explorables à grande échelle. Développé par NVIDIA Research, cet outil repose sur une génération vidéo 3D guidée par une caméra virtuelle : le système reconstruit progressivement la structure volumétrique d'une scène à partir de séquences d'images, transformant chaque mouvement de caméra en matière tridimensionnelle exploitable. La particularité centrale est la persistance géométrique, chaque zone visitée est mémorisée par image, ce qui permet de revenir en arrière sans que le système réinvente les détails disparus de son champ de vue. Lyra 2.0 intègre également un mécanisme de correction de la dérive temporelle, un phénomène qui dégradait les scènes générées sur la durée dans les approches précédentes. Les scènes produites peuvent être exportées en Gaussian Splatting, une technique de rendu rapide basée sur des points lumineux, et intégrées à des simulateurs comme Isaac Sim. L'impact concret de Lyra 2.0 touche plusieurs industries simultanément. Pour les studios de jeu vidéo et les équipes de production 3D, la technologie court-circuite une partie du pipeline traditionnel de modélisation : au lieu de construire manuellement des environnements, on les traverse pendant leur génération automatique. Pour la robotique et l'IA embarquée, les environnements générés deviennent des terrains d'entraînement réalistes, permettant de tester des agents intelligents dans des conditions proches du monde réel sans coûteuses captures physiques. La reconstruction feed-forward, qui transforme une vidéo en structure 3D sans étape manuelle lourde, ouvre la voie à une production de données synthétiques à une échelle difficile à atteindre jusqu'ici. C'est ce double usage, création visuelle et simulation opérationnelle, qui distingue Lyra 2.0 des outils de génération vidéo classiques. La sortie de Lyra 2.0 intervient dans un contexte de compétition intense autour des mondes 3D génératifs. NVIDIA a publié le code source le 15 avril 2026, soit un jour seulement après que World Labs a lancé Spark 2.0, son propre système concurrent. Ce calendrier serré illustre la course que se livrent les grands acteurs de l'IA pour imposer leurs standards dans ce segment émergent. NVIDIA part avec un avantage structurel : son écosystème logiciel, Isaac Sim, Gaussian Splatting, les GPU omniprésents dans les datacenters, lui permet d'intégrer Lyra 2.0 dans des workflows industriels existants dès le départ. Les prochaines étapes attendues concernent l'amélioration de la résolution des scènes générées, la gestion des environnements extérieurs complexes, et l'intégration plus poussée avec les pipelines de simulation robotique où NVIDIA investit massivement depuis plusieurs années.

UELes studios de jeux vidéo et équipes de robotique européens peuvent adopter ce framework open source pour accélérer leur pipeline de création 3D et générer des données d'entraînement synthétiques sans captures physiques coûteuses.

OutilsPaper
1 source
82Le Big Data 

Nvidia vs Meta : qui contrôle vraiment l’IA en 2026 ?

En 2026, deux géants se livrent une bataille ouverte pour le contrôle de l'infrastructure de l'intelligence artificielle mondiale. D'un côté, Nvidia capte entre 80 et 90 % du marché des GPU pour centres de données, enchaînant les trimestres records grâce à une demande pour ses puces Blackwell qui dépasse toutes les prévisions. De l'autre, Meta, dirigé par Mark Zuckerberg, a décidé de rompre sa dépendance à ce fournisseur unique en annonçant jusqu'à 135 milliards de dollars d'investissements en capital pour 2026, dont un contrat historique de 6 gigawatts de puces AMD. Le marché mondial de l'IA générative devrait franchir 100 milliards de dollars d'ici fin 2026, porté par une adoption professionnelle massive : près de 80 % des entreprises prévoient d'intégrer des API d'IA ou de déployer des modèles personnalisés dans leurs processus. Les revenus issus des applications mobiles boostées à l'IA devraient doubler entre 2024 et 2026, avec une répartition géographique marquée : 37,3 milliards de dollars pour les États-Unis (+60 %), 14,7 milliards pour la Chine (+72 %), et une projection de 20 milliards pour la France à horizon 2030. L'enjeu dépasse la simple guerre commerciale entre deux entreprises. Ce que Meta cherche à construire, c'est une souveraineté technologique sur sa propre pile IA, de l'infrastructure physique jusqu'aux modèles. Tant que Nvidia reste le passage obligé pour tout acteur sérieux de l'IA, le géant de Menlo Park reste exposé à des pénuries, des hausses de prix et des délais de livraison qu'il ne contrôle pas. La diversification vers AMD n'est pas un choix technique anodin : c'est un signal politique adressé à toute l'industrie. En parallèle, les joueurs grand public risquent de subir les conséquences de cette course aux serveurs IA, Nvidia orientant clairement sa production vers les centres de données au détriment du segment gaming. La véritable forteresse de Nvidia ne réside pas dans ses puces mais dans son écosystème logiciel CUDA, standard industriel dominant depuis plus de quinze ans, que la concurrence peine à détrôner malgré des investissements considérables. L'architecture Rubin, attendue en succession des Blackwell, devrait creuser encore l'écart en termes de performances brutes. Meta n'est pas seul dans cette tentative de diversification : Google avec ses TPU, Amazon avec ses Trainium, et Microsoft via ses investissements dans OpenAI cherchent tous à réduire leur exposition à un seul fournisseur. La question qui structure désormais toute la filière est celle des infrastructures : les réseaux électriques, les capacités de refroidissement et les chaînes d'approvisionnement en semi-conducteurs peuvent-ils absorber une demande qui double tous les dix-huit mois ? C'est sur ce terrain physique, autant que logiciel, que se jouera la prochaine phase de la course à l'IA.

UELes entreprises européennes restent structurellement dépendantes de l'écosystème Nvidia/CUDA pour leurs projets IA, rendant leur accès à l'infrastructure coûteux et soumis aux arbitrages de production d'acteurs hors UE.

InfrastructureOpinion
1 source
Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia
83The Information AI 

Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia

Nebius, fournisseur cloud soutenu par Nvidia et valorisé à 32 milliards de dollars, est en discussions pour racheter la startup israélienne AI21 Labs, selon des sources proches du dossier. La société, basée à Amsterdam, cherche à élargir ses services d'intelligence artificielle au-delà de son activité principale de location de serveurs GPU. AI21 Labs, dont la dernière valorisation connue était de 1,4 milliard de dollars en 2023, développe des grands modèles de langage et des systèmes d'agents pour les entreprises. Ce rachat potentiel permettrait à Nebius de monter dans la chaîne de valeur de l'IA, en passant de simple infrastructure à fournisseur de solutions logicielles complètes. Pour ses clients, cela signifierait un accès intégré à des modèles et outils d'IA directement via la plateforme cloud, sans passer par des tiers. Pour AI21 Labs, une acquisition représente une issue après l'échec d'une précédente tentative de vente à Nvidia, qui ne s'était pas concrétisée. AI21 Labs fait partie de la première vague de startups israéliennes spécialisées en IA générative, concurrente directe d'OpenAI et Anthropic sur le segment entreprise. La startup avait levé des fonds auprès d'investisseurs majeurs dont Google, Intel Capital et Nvidia lui-même. Le secteur cloud connaît une consolidation accélérée, les fournisseurs d'infrastructure cherchant à intégrer verticalement des capacités IA pour fidéliser leurs clients face à la concurrence d'AWS, Azure et Google Cloud.

UENebius étant basée à Amsterdam, ce rachat potentiel renforcerait la position d'un acteur cloud ancré en Europe dans la chaîne de valeur de l'IA générative enterprise.

BusinessActu
1 source
TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?
84The Information AI 

TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?

Nick Tatarchuk, fondateur de la startup TensorWave, a organisé mercredi à San Francisco un événement intitulé Beyond Summit, anciennement appelé Beyond CUDA. Ce changement de nom n'est pas anodin : l'édition précédente, tenue à San Jose en 2025 lors de la conférence GTC de Nvidia, avait attiré des centaines de participants désireux de discuter des alternatives au logiciel de Nvidia. Cette année, des sponsors et participants potentiels ont exprimé des réticences à s'associer à un événement aussi explicitement positionné contre le géant des puces. Tatarchuk lui-même reconnaît cette pression, d'autant que sa salle habituelle à San Jose avait été réservée pour plusieurs années... par Nvidia. L'événement réunit des startups qui développent des compilateurs, des noyaux et des couches d'optimisation pour concurrencer l'écosystème logiciel de Nvidia, dont plusieurs ont figuré dans les classements Top 50 Startups de 2024 et 2025. L'enjeu central est CUDA, la plateforme logicielle de Nvidia considérée comme son véritable fossé concurrentiel : elle simplifie radicalement l'utilisation du matériel Nvidia pour l'entraînement et l'inférence de modèles d'IA. Mais ce monopole commence à se fissurer. OpenAI et Meta ont récemment annoncé des accords importants avec AMD, rival direct de Nvidia, pour utiliser ses puces dans leurs infrastructures d'IA. Tatarchuk affirme que des laboratoires d'IA commencent désormais à réaliser des entraînements à grande échelle sur du matériel AMD, une pratique qui était à peine évoquée publiquement il y a encore peu. Pour la première fois depuis des années, des clients seraient prêts à envisager sérieusement des alternatives à CUDA, estime-t-il : "Il y a tellement d'entreprises sophistiquées qui n'ont pas besoin de CUDA." Ce mouvement s'inscrit dans un contexte de transformation profonde de l'industrie du calcul pour l'IA. La domination de Nvidia, dont les GPU représentent l'essentiel du marché de l'entraînement des grands modèles, est contestée à la fois par des fabricants de puces alternatifs et par un écosystème logiciel naissant. En parallèle, une autre initiative illustre l'effervescence du secteur : à l'université Stanford, un cours universitaire de premier cycle sur l'infrastructure IA est devenu un événement majeur, surnommé le "Compute Coachella". Le cours, complet, réunit cette semaine Jensen Huang (Nvidia), Lisa Su (AMD), Sam Altman (OpenAI), Satya Nadella (Microsoft) et Andrej Karpathy comme intervenants. Il est enseigné par Anjney Midha, ancien associé d'Andreessen Horowitz et investisseur précoce d'Anthropic, et Michael Abbott, ancien responsable ingénierie chez Apple, tous deux impliqués dans AMP, une initiative visant à faciliter l'accès aux ressources de calcul pour les entreprises.

UEL'émergence d'alternatives viables à CUDA pourrait à terme réduire la dépendance des entreprises et laboratoires européens envers Nvidia pour leurs infrastructures d'entraînement IA.

InfrastructureActu
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
85MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
86NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
NVIDIA GTC : l'Omniverse au service de l'IA physique
87NVIDIA AI Blog 

NVIDIA GTC : l'Omniverse au service de l'IA physique

Lors de la conférence GTC la semaine dernière, NVIDIA a présenté plusieurs avancées majeures pour ce que l'entreprise appelle l'« ère de l'IA physique » — une phase où robots, véhicules autonomes et usines intelligentes passent de déploiements isolés à des systèmes industriels à grande échelle. Au cœur de ces annonces figurent trois nouveaux modèles de frontière : Cosmos 3 pour la modélisation du monde réel, Isaac GR00T N1.7 dédié aux compétences des robots humanoïdes, et Alpamayo 1.5 pour la conduite autonome. NVIDIA a également lancé deux blueprints open source : le Physical AI Data Factory Blueprint, destiné à produire des données d'entraînement à partir de simulations, et l'Omniverse DSX Blueprint, une architecture de référence pour créer des jumeaux numériques d'usines d'IA complètes. Des partenaires comme FieldAI, Hexagon Robotics, Skild AI et Teradyne Robotics utilisent déjà ces outils, tandis que Microsoft Azure et Nebius sont les premiers clouds à proposer le blueprint en mode clé en main. L'enjeu central de ces annonces est de résoudre un problème structurel de l'IA physique : les données réelles ne suffisent plus. Le monde réel est imprévisible, les cas limites sont innombrables, et les pipelines de collecte restent fragmentés. NVIDIA positionne donc la puissance de calcul elle-même comme une fabrique de données — transformant des scènes simulées en datasets massifs, diversifiés et hautement qualifiés. Pour les développeurs de robots et de véhicules autonomes, cela signifie pouvoir entraîner des modèles sur des millions de situations synthétiques sans dépendre d'une collecte terrain coûteuse. Parallèlement, l'Omniverse DSX Blueprint permet aux opérateurs d'usines d'IA de simuler thermiques, réseaux électriques et charges réseau avant même d'installer le premier serveur — réduisant les délais et les dépassements de budget sur des infrastructures qui coûtent des centaines de millions de dollars. Ces développements s'inscrivent dans une stratégie plus large de NVIDIA pour imposer son écosystème comme couche universelle de l'IA industrielle. Le format OpenUSD — langage de description de scènes 3D initialement développé par Pixar — joue un rôle clé en permettant de convertir des fichiers CAO d'ingénierie en environnements de simulation directement exploitables. Des frameworks open source comme OpenClaw viennent compléter la pile en orchestrant des agents autonomes capables de gérer des workflows complexes sur des machines dédiées. Avec l'intégration de partenaires cloud majeurs et d'une dizaine d'acteurs industriels, NVIDIA consolide une position de plateforme incontournable à un moment où la compétition pour contrôler l'infrastructure de l'IA physique — robots, voitures, usines — s'intensifie face à des concurrents comme Google DeepMind, Boston Dynamics et les constructeurs automobiles investissant massivement dans leurs propres systèmes embarqués.

UELes industriels et startups européens en robotique ou véhicules autonomes peuvent accéder via Microsoft Azure aux blueprints open source NVIDIA pour entraîner des modèles sur données synthétiques, réduisant leur dépendance coûteuse à la collecte terrain.

InfrastructureOpinion
1 source
Agents IA : CrowdStrike et NVIDIA accélèrent la cyberdéfense
88Le Big Data 

Agents IA : CrowdStrike et NVIDIA accélèrent la cyberdéfense

CrowdStrike et NVIDIA ont annoncé lors de la conférence GTC un partenariat renforcé pour sécuriser les agents IA autonomes, en intégrant la sécurité directement dans la pile IA via NVIDIA OpenShell et les solutions CrowdStrike Falcon. Leur agent Charlotte AI AgentWorks, boosté par Nemotron 3 Super, et le service Falcon Complete Next-Gen MDR permettent d'automatiser les enquêtes de cybersécurité avec des investigations jusqu'à 5 fois plus rapides. Ce partenariat répond à une crise des SOC traditionnels, où une étude Vectra AI (2024) révèle que 62 % des alertes sont ignorées faute de ressources humaines suffisantes.

UELes équipes SOC européennes pourraient adopter ces outils pour réduire la surcharge d'alertes, mais le partenariat ne cible pas spécifiquement le marché français ni les réglementations européennes.

OutilsOutil
1 source
Le nouveau rack serveur de Nvidia accueillera des puces IA de ses concurrents
89The Information AI 

Le nouveau rack serveur de Nvidia accueillera des puces IA de ses concurrents

Nvidia a dévoilé lors de sa conférence GTC un nouveau rack serveur capable d'héberger aussi bien ses propres puces que celles de ses concurrents. Ces racks intègrent une technologie réseau qui assure une communication rapide et fiable entre les chips. Nvidia transforme ainsi la concurrence en opportunité commerciale en monétisant l'infrastructure même qui fait tourner les puces rivales.

UELes entreprises européennes qui achètent des infrastructures IA pourront bénéficier de racks interopérables, réduisant potentiellement la dépendance à un seul fournisseur de puces.

InfrastructureActu
1 source
90TechCrunch AI 

Nvidia a une stratégie OpenClaw. Et vous ?

Le PDG Jensen Huang a présenté la keynote de la conférence GTC de Nvidia cette semaine, projetant 1 000 milliards de dollars de ventes de puces IA d'ici 2027. Il a affirmé que toutes les entreprises ont besoin d'une "stratégie OpenClaw" et a clôturé avec une démonstration du robot Olaf. Le message central : Nvidia se positionne comme infrastructure incontournable de l'IA.

UELes entreprises européennes devront intégrer une dépendance croissante à l'infrastructure Nvidia dans leur stratégie IA, en l'absence d'alternative compétitive européenne sur le marché des puces.

BusinessOpinion
1 source
91ZDNET FR 

Le marché des serveurs IA change d’ère : Vera Rubin place NVIDIA au centre du jeu

NVIDIA a dévoilé l'architecture Vera Rubin lors de la GTC 2026, marquant un tournant dans le marché des serveurs IA. Cette nouvelle génération positionne NVIDIA au cœur d'une transition vers des infrastructures intégrées, conçues comme de véritables « usines à IA ».

InfrastructureOpinion
1 source
92AI News 

NVIDIA veut rendre les agents IA d'entreprise suffisamment sûrs pour être vraiment déployés

NVIDIA a présenté l'Agent Toolkit lors du GTC 2026 (San Jose, 16 mars), une suite open source permettant aux entreprises de déployer des agents IA autonomes avec des garde-fous de sécurité intégrés via OpenShell, développé en partenariat avec Cisco, CrowdStrike, Google, Microsoft Security et TrendAI. Le toolkit inclut NVIDIA AI-Q, un moteur de recherche agentique basé sur LangChain combinant des modèles frontier et les modèles open Nemotron, réduisant les coûts de requêtes de plus de 50 % tout en atteignant les meilleures performances sur le DeepResearch Bench. Des partenaires majeurs comme Adobe, SAP, Salesforce, ServiceNow et Siemens adoptent déjà la solution, Salesforce intégrant notamment Agentforce dans Slack comme couche d'orchestration.

UELes entreprises européennes utilisant SAP ou Siemens pourraient adopter ce toolkit pour déployer des agents IA sécurisés en conformité avec l'AI Act.

OutilsOutil
1 source
GTC 2026 : IBM et NVIDIA accélèrent l’IA en entreprise avec une nouvelle stratégie
93Le Big Data 

GTC 2026 : IBM et NVIDIA accélèrent l’IA en entreprise avec une nouvelle stratégie

Lors du GTC 2026, IBM et NVIDIA ont renforcé leur partenariat pour aider les entreprises à passer de l'expérimentation à un déploiement massif de l'IA, en s'attaquant aux freins liés aux données dispersées, aux infrastructures inadaptées et aux contraintes réglementaires. La collaboration intègre les GPU NVIDIA dans le moteur watsonx.data d'IBM via l'accélération SQL Presto, avec des résultats concrets : chez Nestlé, le temps de traitement des commandes est passé de 15 à 3 minutes (−83 %, performances ×30 dans 186 pays). L'offre couvre toute la chaîne IA — données structurées et non structurées (via Docling et les modèles Nemotron), infrastructure (IBM Storage Scale System 6000 certifié NVIDIA DGX) — pour une solution bout-en-bout en entreprise.

UENestlé, groupe suisse opérant dans 186 pays, a réduit son temps de traitement des commandes de 83% grâce à ce partenariat, démontrant un impact concret pour les grandes entreprises européennes qui cherchent à industrialiser leurs déploiements IA tout en respectant les contraintes réglementaires.

BusinessActu
1 source
Nvidia dévoile NemoClaw, son logiciel pour agents IA
94The Information AI 

Nvidia dévoile NemoClaw, son logiciel pour agents IA

Nvidia a dévoilé NemoClaw, un nouveau logiciel open-source permettant aux entreprises de créer leurs propres agents IA. Le PDG Jensen Huang a annoncé ce lancement lundi, dans la lignée du succès d'OpenClaw, un outil similaire destiné aux agents personnels.

UELes entreprises européennes peuvent adopter NemoClaw pour développer leurs propres agents IA en interne, sans dépendre de solutions propriétaires tierces.

OutilsOutil
1 source
Jensen propulse les projections de ventes Blackwell et Vera Rubin de Nvidia dans la stratosphère des 1 000 milliards de dollars
95TechCrunch AI 

Jensen propulse les projections de ventes Blackwell et Vera Rubin de Nvidia dans la stratosphère des 1 000 milliards de dollars

Jensen Huang, PDG de Nvidia, prévoit 1 000 milliards de dollars de commandes pour ses puces Blackwell et Vera Rubin. Ces projections astronomiques positionnent Nvidia au sommet du marché des semi-conducteurs IA, avec une demande mondiale qui ne montre aucun signe de ralentissement.

UELes entreprises et clouds européens dépendant des GPU Nvidia pour leurs infrastructures IA pourraient faire face à des délais d'approvisionnement prolongés et des coûts élevés face à cette demande mondiale record.

BusinessActu
1 source
GTC 2026 : Nvidia veut remplacer le problème de données en robotique par un problème de calcul
96The Decoder 

GTC 2026 : Nvidia veut remplacer le problème de données en robotique par un problème de calcul

Lors du GTC 2026, Nvidia a annoncé une expansion majeure de sa plateforme pour l'IA physique. Dès 2027, des véhicules autonomes circuleront à Los Angeles en partenariat avec Uber, tandis que les robots industriels de FANUC et ABB seront équipés de puces Nvidia. De nouveaux modèles visent également à améliorer les capacités des robots humanoïdes, transformant le défi des données en robotique en un problème de puissance de calcul.

UEABB, groupe suisse majeur en robotique industrielle, intégrera les puces Nvidia, ce qui pourrait accélérer l'automatisation dans les usines européennes.

RobotiqueActu
1 source
Nvidia et son partenaire cloud Nscale en négociations pour acquérir un grand site de data center aux États-Unis avant son introduction en bourse
97The Information AI 

Nvidia et son partenaire cloud Nscale en négociations pour acquérir un grand site de data center aux États-Unis avant son introduction en bourse

Nscale, un fournisseur cloud britannique soutenu par Nvidia dont les clients incluent OpenAI et Microsoft, est en négociation pour acquérir l'un des plus grands sites disponibles pour les centres de données IA aux États-Unis. Le site, situé dans le comté de Mason en Virginie-Occidentale, est particulièrement stratégique car il a déjà obtenu les autorisations réglementaires locales et sécurisé les équipements électriques pour les premières phases du projet. Cette acquisition ferait de Nscale, qui prépare une introduction en bourse, un acteur majeur de l'infrastructure IA américaine presque du jour au lendemain.

BusinessActu
1 source
Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr
98The Information AI 

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

Nvidia, des startups comme Perplexity et Genspark s'activent pour proposer des versions sécurisées d'OpenClaw, le logiciel open-source populaire pour agents IA personnels, après plusieurs incidents de sécurité embarrassants — dont la suppression massive d'e-mails de la directrice d'alignement de Meta, Summer Yue. En Chine, des agences gouvernementales ont déjà interdit l'installation d'OpenClaw sur les appareils professionnels. Genspark lance notamment Genspark Claw, qui isole l'agent dans une machine virtuelle cloud (Microsoft Azure) pour contenir les dommages potentiels, à 80 ou 140 $/mois selon Wen Sang, co-fondateur et COO.

SécuritéActu
1 source
Nvidia investit 2 milliards dans Nebius : tout ce qu’il faut savoir
99Le Big Data 

Nvidia investit 2 milliards dans Nebius : tout ce qu’il faut savoir

Nvidia a conclu un accord de 2 milliards de dollars avec Nebius, société cloud IA basée à Amsterdam, dont l'action a bondi de plus de 10 % à l'annonce. Nebius prévoit de déployer d'ici 2030 une infrastructure de 5 gigawatts reposant sur la technologie Nvidia, avec notamment une installation de 1,2 gigawatt dans le Missouri. Le partenariat inclut la conception d'« usines à IA », le développement d'une plateforme d'inférence pour l'IA agentique, et s'inscrit dans une série d'investissements récents de Nvidia (Thinking Machines, Nscale).

UEL'investissement de 2 milliards de dollars de Nvidia dans Nebius, société cloud IA basée à Amsterdam, renforce la capacité de l'Union Européenne à déployer une infrastructure d'IA à grande échelle sur son territoire.

BusinessActu
1 source
Nvidia arrose de cash ; le président de la FCC défend SpaceX
100The Information AI 

Nvidia arrose de cash ; le président de la FCC défend SpaceX

Nvidia et son PDG Jensen Huang multiplient les investissements massifs dans leurs partenaires : 2 milliards de dollars dans Nebius (datacenter européen IA), 2 milliards dans Coherent et 2 milliards dans Lumentum (composants laser pour datacenters), ainsi qu'un investissement significatif dans la startup Thinking Machines Lab. Ce sont quatre annonces de ce type en l'espace d'une seule semaine, illustrant la stratégie d'Nvidia de consolider son écosystème via des prises de participation directes.

UEL'investissement de 2 milliards de dollars de Nvidia dans Nebius, acteur européen des datacenters IA basé aux Pays-Bas, renforce les capacités d'infrastructure cloud IA disponibles pour les entreprises et chercheurs de l'UE.

BusinessActu
1 source