Aller au contenu principal
LLMsMarkTechPost13sem· 1 min de lecture

NVIDIA publie Nemotron-Cascade 2 : un MoE open source de 30 milliards de paramètres avec 3 milliards actifs, offrant un meilleur raisonnement et de solides capacités agentiques

Source originale ↗·

NVIDIA vient de dévoiler Nemotron-Cascade 2, un modèle open-weight de type Mixture-of-Experts (MoE) doté de 30 milliards de paramètres totaux, dont seulement 3 milliards activés lors de l'inférence. Ce modèle marque une étape notable dans la course à la « densité d'intelligence » : délivrer des capacités de raisonnement avancées avec une empreinte computationnelle réduite, rendant le modèle accessible à une large communauté de développeurs et chercheurs.

L'enjeu stratégique est de taille pour NVIDIA, qui consolide ainsi sa position dans l'écosystème des LLM open source face à des concurrents comme Qwen (Alibaba) ou Mistral. En ciblant spécifiquement le raisonnement mathématique, le code et les tâches agentiques, le modèle s'adresse directement aux cas d'usage industriels et académiques les plus exigeants — là où les modèles généralistes montrent souvent leurs limites.

Les résultats sont particulièrement frappants sur des benchmarks de référence : 92,4 sur AIME 2025 (contre 91,9 pour le Qwen3.5-35B-A3B), 87,2 sur LiveCodeBench v6 (contre 74,6), et 83,5 sur ArenaHard v2 (contre 65,4). Il devient par ailleurs le deuxième modèle open-weight à atteindre le niveau Médaille d'Or simultanément aux Olympiades Internationales de Mathématiques (IMO), à l'IOI et aux ICPC World Finals 2025. Ces performances reposent sur un pipeline d'entraînement en trois étapes : un fine-tuning supervisé sur 1,9 million de traces Python, suivi d'un Cascade RL (apprentissage par renforcement séquentiel par domaine pour éviter l'oubli catastrophique), et enfin une innovation clé baptisée MOPD (Multi-Domain On-Policy Distillation), qui surpasse le GRPO en efficacité d'échantillonnage — atteignant un score de 92,0 sur AIME25 en seulement 30 étapes contre 91,0 pour GRPO.

Le modèle propose deux modes d'inférence distincts via son template de chat — un mode raisonnement activé par un token <think> pour les tâches complexes, et un mode direct plus rapide pour les réponses simples — ainsi qu'un protocole structuré de tool-calling pour les applications agentiques. Cette architecture modulaire en fait un candidat sérieux pour les pipelines d'agents autonomes, un segment en forte croissance en 2026.

Impact France/UE

Modèle open-weight librement accessible aux développeurs et entreprises européens pour des cas d'usage de raisonnement avancé et d'agents IA.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique
1MarkTechPost 

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique

NVIDIA lance Nemotron 3 Super, un modèle open-source de 120 milliards de paramètres combinant architecture hybride Mamba-Attention et Mixture of Experts (MoE), conçu spécifiquement pour les applications multi-agents complexes. Il offre jusqu'à 7x plus de débit et une précision doublée par rapport à la génération précédente, grâce à cinq innovations clés dont la prédiction multi-tokens, une fenêtre de contexte d'un million de tokens et l'intégration de NeMo RL Gym. Ce modèle se positionne entre le Nemotron 3 Nano (30B paramètres) et l'Ultra (500B), attendu plus tard en 2026.

LLMsOutil
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
2MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source
3MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres
4MarkTechPost 

NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres

NVIDIA Research a présenté Star Elastic, une nouvelle méthode post-entraînement qui permet d'intégrer plusieurs sous-modèles de tailles différentes au sein d'un unique checkpoint. Appliquée à Nemotron Nano v3, un modèle hybride Mamba-Transformer-MoE de 30 milliards de paramètres au total (3,6 milliards actifs), la technique génère deux variantes imbriquées : une version 23B (2,8B actifs) et une version 12B (2,0B actifs). Les trois modèles sont entraînés en une seule passe sur environ 160 milliards de tokens, puis stockés dans un seul fichier de poids. Aucun fine-tuning supplémentaire n'est nécessaire pour extraire l'une ou l'autre variante. Jusqu'ici, produire une famille de modèles signifiait multiplier les entraînements complets, les volumes de stockage et les infrastructures de déploiement. Star Elastic tranche ce problème en identifiant, pour chaque budget de paramètres cible, quels composants du modèle parent contribuent le plus à la précision : canaux d'embedding, têtes d'attention, experts MoE, dimensions intermédiaires des couches FFN. Ces composants sont classés par importance, de sorte que les sous-modèles plus petits réutilisent toujours le sous-ensemble le plus performant du modèle plus grand. Pour les couches MoE, la méthode introduit le Router-Weighted Expert Activation Pruning (REAP), qui sélectionne les experts en combinant les valeurs des gates de routage et les magnitudes de sortie, un signal plus fiable que la simple fréquence d'activation. L'architecture de chaque variante est déterminée par un routeur entraînable de bout en bout via Gumbel-Softmax, qui apprend à prendre des décisions architecturales en optimisant simultanément la distillation de connaissance depuis le modèle parent et le respect d'un budget de ressources cible. La pression pour réduire le coût du déploiement de LLMs est constante, notamment pour les équipes qui veulent proposer plusieurs niveaux de qualité sans doubler les coûts d'infrastructure. Star Elastic s'inscrit dans une lignée de techniques de compression comme Minitron (déjà développé par NVIDIA), mais s'en distingue par son routeur différentiable et son entraînement en deux phases : une première sur des contextes courts de 8 192 tokens, puis une seconde sur des contextes longs de 49 152 tokens avec sur-représentation du modèle 30B complet (probabilité 0,5 contre 0,3 pour le 23B et 0,2 pour le 12B). Les ablations sur Nemotron Nano v2 montrent que cette seconde phase seule apporte jusqu'à 19,8 points de gain sur AIME-2025 pour une variante 6B, ce qui justifie son inclusion systématique. La méthode ouvre la voie à des déploiements adaptatifs où un même checkpoint peut servir différentes phases de raisonnement selon les contraintes de latence ou de mémoire disponible.

💬 Un checkpoint, trois modèles, zéro fine-tuning supplémentaire. C'est le genre de truc qui semble évident avec le recul mais qui demandait jusqu'ici de lancer trois entraînements complets, trois pipelines de déploiement, trois factures de stockage. Reste à voir si les variantes 12B et 23B tiennent vraiment face à des modèles entraînés séparément, parce que "imbriqué dans le même fichier" et "aussi bon qu'un modèle dédié", c'est pas forcément la même chose.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic