
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés.
Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas.
Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.
La publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.
L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




