Aller au contenu principal
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
LLMsNVIDIA AI Blog13sem· 2 min de lecture

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Source originale ↗·

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques.

L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine.

Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

Impact France/UE

La concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 L'analyse de Mathieu

Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
1MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
De Google Remy à Gemini Spark : l’avènement de l’agent IA autonome
2Le Big Data 

De Google Remy à Gemini Spark : l’avènement de l’agent IA autonome

Google a officiellement lancé Gemini Spark lors de la conférence Google I/O 2026, l'aboutissement d'un projet secret baptisé Remy, révélé plusieurs mois plus tôt par Business Insider. Développé en interne et testé en phase de dogfooding par les employés de Google via une version exclusive de l'application Gemini, cet agent autonome repose sur le modèle multimodal Gemini, doté d'une fenêtre de contexte de deux millions de tokens. Son architecture, baptisée Antigravity, orchestre plusieurs micro-agents spécialisés capables de planifier des tâches complexes, d'analyser leurs erreurs en temps réel et de corriger leur trajectoire avant d'agir. Le système dispose également d'une mémoire à long terme connectée aux données personnelles de l'utilisateur, stockant préférences, habitudes et relations pour assurer une continuité entre les sessions. Cette transition marque une rupture fondamentale avec les chatbots réactifs comme ChatGPT ou Gemini classique, qui nécessitent un prompt à chaque interaction avant de redevenir passifs. Gemini Spark inverse cette logique : l'utilisateur fixe un objectif global, et l'agent prend en charge l'exécution de manière proactive, pouvant suivre un projet sur plusieurs semaines, relancer des contacts ou compiler des données sans intervention manuelle. Pour les professionnels, cela représente une réduction concrète de la charge cognitive liée aux tâches répétitives de coordination et de logistique. L'IA cesse d'être un outil ponctuel pour devenir un collaborateur opérationnel permanent, capable d'anticiper les besoins sans attendre d'instruction explicite. Le nom de code Remy, inspiré du latin Remigus signifiant "rameur", résume l'ambition de Google DeepMind : une intelligence artificielle qui rame dans l'ombre pendant que l'utilisateur conserve le cap. Ce positionnement place Google en compétition directe avec OpenAI et ses propres initiatives d'agents autonomes, dans une course à l'IA agentique qui redéfinit les standards du secteur. La question de la supervision humaine reste centrale : pour les actions critiques, un contrôle reste requis, ce qui soulève des enjeux de sécurité, de gouvernance des données personnelles et de confiance dans des systèmes capables d'agir durablement en arrière-plan. Le déploiement de Gemini Spark dans la gamme grand public et professionnelle de Google constitue la première mise à l'échelle commerciale de cette vision, et ses suites détermineront dans quelle mesure les utilisateurs sont prêts à déléguer une part substantielle de leur activité numérique à une machine autonome.

UELe déploiement de Gemini Spark avec sa mémoire à long terme connectée aux données personnelles soulève des questions de conformité au RGPD pour les utilisateurs et entreprises européens.

💬 Deux millions de tokens de contexte avec une mémoire persistante sur tes données perso, c'est le premier agent qui pourrait vraiment tenir sur la durée. L'architecture multi-agents auto-correctrice (Antigravity, beau nom) c'est justement ce qui manquait à tous les précédents, ceux qui plantaient dès que la tâche dépassait 3 étapes. En Europe, RGPD + mémoire longue + Google, ça va être sportif.

LLMsOpinion
1 source
Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100
3MarkTechPost 

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

Cohere a publié Command A+, un modèle open source sous licence Apache 2.0 conçu pour les workflows agentiques en entreprise. Architecturé comme un Transformer sparse Mixture-of-Experts (MoE) décodeur uniquement, le modèle totalise 218 milliards de paramètres mais n'en active que 25 milliards par inférence, grâce à un mécanisme de routage vers 8 experts parmi 128 disponibles. Cette architecture permet de faire tourner Command A+ sur seulement deux GPU H100 en quantification W4A4 4 bits, ou sur quatre H100 en FP8, rendant le déploiement on-premise accessible sans infrastructure exorbitante. Le modèle prend en charge une fenêtre de contexte de 128 000 tokens, génère jusqu'à 64 000 tokens, traite texte, images et appels d'outils, et couvre désormais 48 langues contre 23 pour ses prédécesseurs. Il fusionne en un seul modèle les capacités de quatre modèles précédents : Command A, Command A Reasoning, Command A Vision et Command A Translate. Les gains de performance sont substantiels. Sur le benchmark tau²-Bench Telecom, Command A+ passe de 37 % à 85 % par rapport à Command A Reasoning. Sur Terminal-Bench Hard, référence pour le codage agentique difficile, le score bondit de 3 % à 25 %. En interne, Cohere mesure une amélioration de 20 % en question-réponse agentique, de 32 % en analyse de tableurs, et la capacité à exploiter la mémoire de sessions précédentes atteint 54 % contre 39 %. Sur le plan multimodal, MathVista progresse de 73,5 % à 80,6 % et Command A+ décroche 37 points sur l'Artificial Analysis Intelligence Index, devançant les principaux modèles open source concurrents. La quantification W4A4, appliquée uniquement aux couches MoE tout en conservant les projections d'attention en pleine précision, n'entraîne aucune dégradation mesurable sur les benchmarks et améliore le débit de sortie de 63 % tout en réduisant le temps avant premier token de 17 % par rapport à Command A Reasoning. Command A+ s'inscrit dans une tendance de fond qui voit les grands laboratoires chercher à réduire drastiquement le coût d'inférence sans sacrifier la qualité. Cohere, positionné historiquement sur le segment entreprise face à OpenAI, Anthropic et Google, mise sur la portabilité et la souveraineté des déploiements : la licence Apache 2.0 permet un usage commercial libre, un argument de poids pour les organisations qui refusent de dépendre de fournisseurs cloud. La technique de distillation avec prise en compte de la quantification (Quantization-Aware Distillation) utilisée en post-entraînement illustre la maturité croissante des méthodes de compression, qui commencent à rivaliser avec les modèles denses pleine précision sur des tâches complexes. La prochaine question sera de savoir si des performances agentiques aussi élevées sur deux H100 suffiront à convaincre les DSI d'internaliser leurs inférences plutôt que de passer par les API managées.

UELa licence Apache 2.0 et la possibilité de déployer Command A+ sur seulement deux GPU H100 ouvrent aux entreprises européennes une option d'inférence on-premise souveraine, réduisant leur dépendance aux APIs cloud américaines.

LLMsOpinion
1 source
NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale
4NVIDIA AI Blog 

NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale

Google DeepMind a lancé DiffusionGemma, un modèle de langage expérimental open source qui abandonne la génération séquentielle au profit d'une approche par diffusion. Construit sur l'architecture Gemma 4, un modèle mixture-of-experts de 26 milliards de paramètres n'activant que 3,8 milliards par étape, DiffusionGemma génère jusqu'à 256 tokens en parallèle à chaque passe plutôt qu'un seul à la fois. NVIDIA a optimisé ce modèle pour l'ensemble de sa gamme matérielle, et les chiffres sont frappants : 1 000 tokens par seconde sur une carte H100, 150 tokens/sec sur le DGX Spark, 800 tokens/sec sur la DGX Station, et environ quatre fois plus vite qu'un modèle autorégressif équivalent en usage mono-utilisateur. Le modèle est disponible sous licence Apache 2.0 avec un support immédiat dans Hugging Face Transformers, vLLM et Unsloth, et s'exécute entièrement en local sans coût par token. Cette vitesse change concrètement l'expérience pour les développeurs, chercheurs et passionnés d'IA qui font tourner des workflows agentiques ou des assistants interactifs. Les modèles autorégressifs classiques sont fondamentalement limités par la bande passante mémoire en usage mono-utilisateur : le GPU attend plus qu'il ne calcule. L'approche par diffusion retourne l'équation. En traitant un bloc de 256 tokens d'un coup, DiffusionGemma exploite pleinement les Tensor Cores de NVIDIA, conçus pour des calculs matriciels denses en parallèle. Les boucles agentiques, les chats interactifs et les assistants embarqués peuvent désormais répondre à la vitesse à laquelle un développeur pense et itère. Le modèle tourne localement sur les GPU GeForce RTX, les stations de travail RTX PRO 6000, le DGX Spark avec ses 128 Go de mémoire unifiée, et la DGX Station avec ses 748 Go de mémoire cohérente. L'approche par diffusion pour le texte s'inspire du domaine de la génération d'images, où le principe consiste à débruiter progressivement un signal aléatoire pour obtenir un résultat cohérent. Appliquée au langage, cette méthode restait jusqu'ici expérimentale et peu compétitive face aux LLM autorégressifs dominant le marché. DiffusionGemma marque une étape plus sérieuse : Google DeepMind lui apporte une base architecturale solide avec Gemma 4, et NVIDIA l'optimisation matérielle nécessaire pour en faire un outil pratique dès le premier jour. Un support llama.cpp pour les GeForce RTX grand public est annoncé prochainement, ce qui pourrait rendre la génération ultra-rapide accessible au plus grand nombre sans infrastructure cloud. Si les performances en qualité de génération se confirment à l'usage, le modèle pourrait bousculer les hypothèses de base sur lesquelles repose l'architecture de tous les grands LLM actuels.

UELa disponibilité sous licence Apache 2.0 et l'exécution locale sans coût par token ouvrent de nouvelles options pour les développeurs et chercheurs européens souhaitant déployer des workflows agentiques sans dépendance au cloud.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic