Aller au contenu principal
Nvidia avait finalement besoin de Groq
LLMsThe Information AI12sem· 1 min de lecture

Nvidia avait finalement besoin de Groq

Source originale ↗·

Nvidia vient d'annoncer lors de sa conférence annuelle GTC, au San Jose Convention Center, l'intégration de la technologie du fabricant de puces IA Groq dans ses systèmes de GPU. Cette collaboration vise spécifiquement à gérer des tâches d'inférence IA spécialisées, comme la génération de code — des tâches pour lesquelles les GPU de Nvidia ne s'avèrent pas suffisamment performants seuls.

C'est une admission tacite mais significative de la part du leader incontesté du marché des puces IA : ses GPU, malgré leur domination écrasante du secteur, présentent des limites sur certaines des charges de travail les plus critiques de l'IA moderne. L'inférence spécialisée est précisément le domaine où des architectures alternatives — comme celle de Groq avec ses LPU (Language Processing Units) — démontrent des avantages concurrentiels réels en termes de latence et de débit.

Ce qui rend l'annonce particulièrement frappante, c'est le contraste avec les déclarations passées du PDG Jensen Huang, qui avait tenu des propos ouvertement condescendants à l'égard de Groq en janvier dernier. Quelques semaines plus tard, Nvidia intègre officiellement sa technologie dans ses propres systèmes. La conférence elle-même illustre l'atmosphère de ferveur autour de l'entreprise : des robots humanoïdes accueillent les visiteurs, des sweaters à l'effigie de Jensen Huang s'arrachent, et le fournisseur cloud Nebius — spécialisé dans la location de GPU Nvidia — animait un bar avec des cocktails aux noms évocateurs comme le GPU Spritz ou le Ryes of the Machines.

Ce partenariat signal potentiellement un tournant dans la stratégie de Nvidia : plutôt que de prétendre à l'omnipotence de ses GPU, l'entreprise semble désormais prête à construire des systèmes hybrides pour répondre aux exigences croissantes et diversifiées des applications IA.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nvidia : Jensen Huang déclare avoir atteint l'AGI
1The Verge AI 

Nvidia : Jensen Huang déclare avoir atteint l'AGI

Le PDG de Nvidia, Jensen Huang, a déclaré sur le podcast de Lex Fridman : "Je pense que nous avons atteint l'AGI." Cette affirmation relance le débat autour de l'intelligence artificielle générale (AGI), un terme désignant une IA égale ou supérieure à l'intelligence humaine. Alors que certains dirigeants tech tentent de remplacer ce terme jugé trop vague, Huang l'utilise ouvertement, soulignant que les systèmes actuels réussissent des tests qui, il y a cinq ans, auraient été considérés comme la définition même de l'AGI.

LLMsActu
1 source
« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme
2Le Big Data 

« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme

Lors d'un entretien avec Lex Fridman, Jensen Huang (PDG de Nvidia) a déclaré que « l'AGI est déjà là », en adoptant une définition purement économique : une IA capable de générer un milliard de dollars de valeur de manière autonome (influenceur virtuel viral, application à 50 centimes touchant des milliards d'utilisateurs). Cette vision ultra-capitaliste rompt avec le consensus scientifique — Yann LeCun (Meta) rappelle que les modèles actuels n'atteignent pas même l'intelligence d'un chat — mais Huang contourne le débat philosophique pour imposer un critère de performance économique comme nouvelle définition de l'AGI.

LLMsOpinion
1 source
NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale
3NVIDIA AI Blog 

NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale

Google DeepMind a lancé DiffusionGemma, un modèle de langage expérimental open source qui abandonne la génération séquentielle au profit d'une approche par diffusion. Construit sur l'architecture Gemma 4, un modèle mixture-of-experts de 26 milliards de paramètres n'activant que 3,8 milliards par étape, DiffusionGemma génère jusqu'à 256 tokens en parallèle à chaque passe plutôt qu'un seul à la fois. NVIDIA a optimisé ce modèle pour l'ensemble de sa gamme matérielle, et les chiffres sont frappants : 1 000 tokens par seconde sur une carte H100, 150 tokens/sec sur le DGX Spark, 800 tokens/sec sur la DGX Station, et environ quatre fois plus vite qu'un modèle autorégressif équivalent en usage mono-utilisateur. Le modèle est disponible sous licence Apache 2.0 avec un support immédiat dans Hugging Face Transformers, vLLM et Unsloth, et s'exécute entièrement en local sans coût par token. Cette vitesse change concrètement l'expérience pour les développeurs, chercheurs et passionnés d'IA qui font tourner des workflows agentiques ou des assistants interactifs. Les modèles autorégressifs classiques sont fondamentalement limités par la bande passante mémoire en usage mono-utilisateur : le GPU attend plus qu'il ne calcule. L'approche par diffusion retourne l'équation. En traitant un bloc de 256 tokens d'un coup, DiffusionGemma exploite pleinement les Tensor Cores de NVIDIA, conçus pour des calculs matriciels denses en parallèle. Les boucles agentiques, les chats interactifs et les assistants embarqués peuvent désormais répondre à la vitesse à laquelle un développeur pense et itère. Le modèle tourne localement sur les GPU GeForce RTX, les stations de travail RTX PRO 6000, le DGX Spark avec ses 128 Go de mémoire unifiée, et la DGX Station avec ses 748 Go de mémoire cohérente. L'approche par diffusion pour le texte s'inspire du domaine de la génération d'images, où le principe consiste à débruiter progressivement un signal aléatoire pour obtenir un résultat cohérent. Appliquée au langage, cette méthode restait jusqu'ici expérimentale et peu compétitive face aux LLM autorégressifs dominant le marché. DiffusionGemma marque une étape plus sérieuse : Google DeepMind lui apporte une base architecturale solide avec Gemma 4, et NVIDIA l'optimisation matérielle nécessaire pour en faire un outil pratique dès le premier jour. Un support llama.cpp pour les GeForce RTX grand public est annoncé prochainement, ce qui pourrait rendre la génération ultra-rapide accessible au plus grand nombre sans infrastructure cloud. Si les performances en qualité de génération se confirment à l'usage, le modèle pourrait bousculer les hypothèses de base sur lesquelles repose l'architecture de tous les grands LLM actuels.

UELa disponibilité sous licence Apache 2.0 et l'exécution locale sans coût par token ouvrent de nouvelles options pour les développeurs et chercheurs européens souhaitant déployer des workflows agentiques sans dépendance au cloud.

LLMsActu
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
4Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic