Aller au contenu principal
[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027
LLMsLatent Space14sem· 2 min de lecture

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027

Source originale ↗·

NVIDIA a frappé fort lors de sa conférence GTC, avec un Jensen Huang en grande forme pour son keynote de deux heures non scripté. Le PDG a annoncé que les commandes pour ses futures puces atteindraient 1 000 milliards de dollars d'ici 2027, confirmant une demande structurelle massive pour l'infrastructure IA. Les architectures Blackwell et Rubin s'écoulent à un rythme record, et la firme a dévoilé Vera, son nouveau CPU maison destiné à compléter l'écosystème data center.

La séquence la plus remarquée du keynote a été consacrée à OpenClaw, le projet open source de robotique et d'agents physiques. Jensen en a vanté les mérites avant d'en souligner publiquement les failles de sécurité — pour mieux pitcher la réponse maison : NemoClaw, la couche de sécurité et de guardrails développée par NVIDIA. Ce mouvement illustre la stratégie récurrente de l'entreprise : identifier une friction dans l'écosystème open source, puis proposer une solution propriétaire comme standard de facto.

En parallèle, l'écosystème IA a été animé par plusieurs signaux forts cette semaine. OpenAI a confirmé que Codex dépasse désormais 2 millions d'utilisateurs actifs hebdomadaires, soit une progression de près de 4x depuis le début de l'année. GPT-5.4 aurait atteint 5 000 milliards de tokens par jour en moins d'une semaine, générant 1 milliard de dollars de revenus annualisés nets supplémentaires selon @sama et @gdb. Du côté de la recherche, le papier Attention Residuals de Moonshot AI (modèle Kimi Linear 48B) a suscité débat : gain de 1,25x en efficacité de calcul revendiqué, mais des chercheurs dont @behrouz_ali pointent des chevauchements avec des travaux antérieurs comme DeepCrossAttention.

La semaine marque aussi une accélération de l'infrastructure autour des agents de code : LangChain a lancé LangGraph CLI, AssemblyAI a publié un skill standardisé pour Claude Code, Codex et Cursor, et Andrew Ng a étendu Context Hub avec des boucles de feedback pour agents. La convergence vers un stack d'outillage unifié — fichiers de skills, docs temps réel, mémoire procédurale extraite de GitHub — dessine ce qui pourrait devenir l'infrastructure standard des agents de développement autonomes.

Impact France/UE

Les laboratoires et entreprises européens déployant des infrastructures IA devront intégrer les nouvelles architectures NVIDIA (Vera CPU, Rubin) dans leur feuille de route hardware, avec des implications budgétaires majeures sur les prochains cycles d'investissement.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nvidia craque pour OpenClaw
1Ben's Bites 

Nvidia craque pour OpenClaw

Nvidia prévoit de générer plus de 1 000 milliards de dollars de ventes via ses puces IA phares d'ici fin 2027, et a lancé NemoClaw, une stack open source ajoutant des contrôles de confidentialité et sécurité à OpenClaw. OpenAI annonce que Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires et que l'usage de son API a augmenté de 20 % depuis la sortie de GPT-5.4, tandis que Manus (récemment acquis par Meta) a lancé une application desktop concurrente mais avec des résultats décevants lors des tests. La fenêtre de contexte d'un million de tokens de Claude est désormais disponible en général.

UELe lancement de NemoClaw avec contrôles de confidentialité et sécurité pourrait faciliter l'adoption des outils Nvidia dans les entreprises européennes soumises au RGPD.

LLMsActu
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
2MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
3Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100
4MarkTechPost 

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

Cohere a publié Command A+, un modèle open source sous licence Apache 2.0 conçu pour les workflows agentiques en entreprise. Architecturé comme un Transformer sparse Mixture-of-Experts (MoE) décodeur uniquement, le modèle totalise 218 milliards de paramètres mais n'en active que 25 milliards par inférence, grâce à un mécanisme de routage vers 8 experts parmi 128 disponibles. Cette architecture permet de faire tourner Command A+ sur seulement deux GPU H100 en quantification W4A4 4 bits, ou sur quatre H100 en FP8, rendant le déploiement on-premise accessible sans infrastructure exorbitante. Le modèle prend en charge une fenêtre de contexte de 128 000 tokens, génère jusqu'à 64 000 tokens, traite texte, images et appels d'outils, et couvre désormais 48 langues contre 23 pour ses prédécesseurs. Il fusionne en un seul modèle les capacités de quatre modèles précédents : Command A, Command A Reasoning, Command A Vision et Command A Translate. Les gains de performance sont substantiels. Sur le benchmark tau²-Bench Telecom, Command A+ passe de 37 % à 85 % par rapport à Command A Reasoning. Sur Terminal-Bench Hard, référence pour le codage agentique difficile, le score bondit de 3 % à 25 %. En interne, Cohere mesure une amélioration de 20 % en question-réponse agentique, de 32 % en analyse de tableurs, et la capacité à exploiter la mémoire de sessions précédentes atteint 54 % contre 39 %. Sur le plan multimodal, MathVista progresse de 73,5 % à 80,6 % et Command A+ décroche 37 points sur l'Artificial Analysis Intelligence Index, devançant les principaux modèles open source concurrents. La quantification W4A4, appliquée uniquement aux couches MoE tout en conservant les projections d'attention en pleine précision, n'entraîne aucune dégradation mesurable sur les benchmarks et améliore le débit de sortie de 63 % tout en réduisant le temps avant premier token de 17 % par rapport à Command A Reasoning. Command A+ s'inscrit dans une tendance de fond qui voit les grands laboratoires chercher à réduire drastiquement le coût d'inférence sans sacrifier la qualité. Cohere, positionné historiquement sur le segment entreprise face à OpenAI, Anthropic et Google, mise sur la portabilité et la souveraineté des déploiements : la licence Apache 2.0 permet un usage commercial libre, un argument de poids pour les organisations qui refusent de dépendre de fournisseurs cloud. La technique de distillation avec prise en compte de la quantification (Quantization-Aware Distillation) utilisée en post-entraînement illustre la maturité croissante des méthodes de compression, qui commencent à rivaliser avec les modèles denses pleine précision sur des tâches complexes. La prochaine question sera de savoir si des performances agentiques aussi élevées sur deux H100 suffiront à convaincre les DSI d'internaliser leurs inférences plutôt que de passer par les API managées.

UELa licence Apache 2.0 et la possibilité de déployer Command A+ sur seulement deux GPU H100 ouvrent aux entreprises européennes une option d'inférence on-premise souveraine, réduisant leur dépendance aux APIs cloud américaines.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic