Aller au contenu principal
LLMsMarkTechPost4h· 2 min de lecture

NVIDIA lance Nemotron-Labs-TwoTower, un modèle de langage à diffusion à poids ouverts basé sur un backbone autorégressif figé Nemotron-3-Nano-30B-A3B

Source originale ↗·

NVIDIA a publié Nemotron-Labs-TwoTower, un modèle de langage à diffusion construit à partir du backbone autorégressif ouvert Nemotron-3-Nano-30B-A3B, sous licence NVIDIA Nemotron Open Model License. Contrairement aux modèles autorégressifs classiques qui génèrent un token à la fois, ce qui limite le débit de génération, TwoTower produit les tokens en parallèle puis les affine par itérations successives. L'innovation tient dans la séparation en deux tours distinctes là où la plupart des modèles à diffusion utilisent un seul réseau pour représenter les tokens propres et débruiter les tokens corrompus. Chaque tour compte 52 couches, réparties entre 23 couches Mamba-2, 6 couches d'auto-attention et 23 couches de mixture d'experts, pour un total d'environ 60 milliards de paramètres, dont seulement 3 milliards actifs par token et par tour. Sur les 128 experts routables, 6 s'activent à chaque passage, complétés par 2 experts partagés. Les deux tours partent du même point de contrôle, mais seule la tour de débruitage a été entraînée, sur environ 2 100 milliards de tokens, contre 25 000 milliards pour le backbone original resté figé.

Cette architecture permet à NVIDIA d'annoncer un débit de génération 2,42 fois supérieur à celui du modèle autorégressif de référence, tout en conservant 98,7% de sa qualité agrégée sur les benchmarks, mesurée sur deux GPU H100 en précision BF16 avec un seuil de confiance de 0,8 et des blocs de 16 tokens. Concrètement, les scores de connaissances générales comme MMLU restent à moins d'un point d'écart avec l'original, tandis que les tâches de code et de mathématiques, comme HumanEval ou MATH-500, accusent un recul plus net, et que les tâches de sens commun et de multilinguisme, comme WinoGrande ou MGSM, sont préservées voire légèrement améliorées. Ce compromis intéresse directement les entreprises qui déploient des modèles de langage à grande échelle, où le coût et la latence de l'inférence pèsent lourd sur les factures de calcul: gagner plus du double en vitesse pour une perte de qualité inférieure à 2% change concrètement l'équation économique des déploiements en production.

Sur le plan technique, la tour de contexte autorégressive traite le prompt et les tokens déjà validés de façon causale, en générant un cache clé-valeur et des états Mamba-2 exploités couche par couche par la tour de débruitage via un mécanisme d'attention croisée alignée, une amélioration par rapport aux approches précédentes qui ne transmettaient que le dernier état caché. La génération se fait bloc par bloc: chaque bloc commence masqué, se raffine sur plusieurs étapes de diffusion, puis se valide avant que la tour de contexte ne mette à jour ses caches. Le fait qu'un unique point de contrôle permette de basculer entre les modes diffusion, pseudo-autorégressif et purement autorégressif ouvre la voie à des déploiements flexibles, où les développeurs pourront arbitrer entre vitesse et fidélité selon les besoins de chaque application, une piste que d'autres laboratoires travaillant sur les architectures hybrides devraient probablement explorer à leur tour.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B
1MarkTechPost 

NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B

NVIDIA a publié Nemotron-Labs-Diffusion, une nouvelle famille de modèles de langage disponible en trois tailles, 3, 8 et 14 milliards de paramètres, avec des variantes de base, instruction et vision-langage. La particularité de cette architecture réside dans sa capacité à fonctionner selon trois modes de décodage distincts au sein d'un seul et même jeu de poids : le décodage autorégressif classique (AR), le décodage par diffusion parallèle, et un mode dit de "self-speculation". L'entraînement combine un objectif AR standard et un objectif de débruitage par diffusion, pondérés selon la formule L(θ) = LAR(θ) + 0,3 × Ldiff(θ). Le coefficient 0,3 a été déterminé par ablation sur une plage de 0,1 à 1,0, et s'est révélé optimal pour les deux modes simultanément. La procédure d'entraînement se déroule en deux phases : un trillion de tokens en mode purement autorégressif pour ancrer des priors linguistiques solides, suivi de 300 milliards de tokens supplémentaires avec l'objectif conjoint. Ce modèle répond à un problème fondamental des LLMs déployés en production : les modèles autorégressifs génèrent un token à la fois, ce qui sous-exploite massivement les GPU dans les scénarios à faible concurrence, typiquement les déploiements en edge ou pour un utilisateur unique. Le mode diffusion de Nemotron-Labs-Diffusion génère plusieurs tokens en parallèle par passe, grâce à une attention bidirectionnelle à l'intérieur de blocs contigus, tout en conservant une attention causale entre blocs pour réutiliser le cache KV. Le mode self-speculation est encore plus original : la voie diffusion génère un bloc de k tokens candidats, que la voie AR vérifie en une seconde passe, en validant le préfixe contigu le plus long. Chaque cycle produit entre 1 et k+1 tokens vérifiés, sans modèle auxiliaire ni tête de prédiction séparée, une différence notable par rapport aux approches comme Eagle3 ou Multi-Token Prediction. Les modèles de diffusion pour le langage souffrent depuis leur émergence d'un déficit de précision par rapport aux modèles autorégressifs : ils nécessitent davantage de données pour atteindre des performances comparables, notamment parce qu'ils ne tirent pas parti du biais gauche-droite naturel du langage. NVIDIA tente de résoudre cette tension structurelle en entraînant un modèle unique sur les deux objectifs, ce qui, selon leurs ablations, apporte un gain moyen de +7,48% via le seul ajout de la perte AR, et +5,74% grâce à l'entraînement en deux étapes. La publication de cette famille de modèles s'inscrit dans une compétition intense autour de l'efficacité inférentielle, où Qwen3-8B sert de référence explicite, NVIDIA revendiquant un ratio de 6× tokens par passe vers l'avant. La prochaine étape naturelle sera de voir si ces gains se confirment dans des benchmarks indépendants et des déploiements réels, et si l'approche tri-modale s'impose comme standard pour les futurs modèles hybrides.

LLMsOpinion
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
2MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source
Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte
3MarkTechPost 

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte

Google a publié DiffusionGemma, un modèle expérimental open source de 26 milliards de paramètres en architecture Mixture of Experts (MoE), sous licence Apache 2.0. Contrairement aux modèles de langage classiques qui génèrent les tokens un par un de gauche à droite, DiffusionGemma produit des blocs entiers de texte en parallèle, ce qui lui permet d'atteindre jusqu'à quatre fois la vitesse de génération des modèles autorégressifs traditionnels. Sur un GPU NVIDIA H100, il dépasse les 1 000 tokens par seconde ; sur un RTX 5090, il atteint plus de 700 tokens par seconde. Lors de l'inférence, seuls 3,8 milliards de paramètres sont activés. Le modèle, construit sur la base Gemma 4 26B-A4B, est multimodal : il traite du texte, des images et de la vidéo en entrée, dispose d'une fenêtre de contexte de 256 000 tokens, supporte plus de 140 langues et tient dans 18 Go de VRAM une fois quantifié, le rendant compatible avec les GPU grand public haut de gamme. L'intérêt principal de DiffusionGemma réside dans ses cas d'usage à contrainte de latence forte : édition de texte en ligne, itération rapide, génération de structures non linéaires. En déplaçant le goulot d'étranglement de la bande passante mémoire vers le calcul pur, le modèle exploite mieux les cœurs tensoriels inactifs des GPU locaux. Google cible explicitement les développeurs et chercheurs qui travaillent sur des workflows interactifs en local, où la vitesse prime sur la qualité absolue. L'entreprise est toutefois transparente sur le compromis : DiffusionGemma génère plus vite, mais sa qualité de sortie reste inférieure à celle de Gemma 4 autorégressif standard. Pour les productions critiques nécessitant une qualité maximale, Google recommande toujours ses modèles classiques. Le mécanisme au cœur de DiffusionGemma s'appelle Uniform State Diffusion, inspiré des générateurs d'images IA qui partent d'un bruit visuel pour le raffiner progressivement. Appliqué au texte, le modèle démarre avec un canvas de 256 tokens aléatoires, effectue plusieurs passes en attention bidirectionnelle, verrouille les tokens à haute confiance et les utilise comme contexte pour résoudre les positions adjacentes, jusqu'à ce que le texte converge. Cette attention bidirectionnelle, où chaque token peut en observer un autre dans n'importe quelle direction, tranche radicalement avec les modèles autorégressifs contraints à ne regarder qu'en arrière. Elle permet en outre une auto-correction en temps réel : si la confiance d'un token chute, le modèle peut le re-bruiter et le remplacer lors d'une passe suivante. Pour les sorties longues, Google a développé la Block Autoregressive Diffusion : une fois un bloc de 256 tokens finalisé, il est validé dans le cache KV et un nouveau canvas démarre, conditonné sur l'historique précédent. Cette approche hybride combine la vitesse du traitement parallèle et la stabilité séquentielle des architectures classiques.

UELes développeurs et chercheurs européens bénéficient d'un modèle open source sous licence Apache 2.0 utilisable sur GPU grand public, offrant une alternative locale à faible latence sans dépendance à des services cloud externes.

LLMsOpinion
1 source
Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x
4MarkTechPost 

Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x

Le laboratoire d'IA californien Zyphra a publié ZAYA1-8B-Diffusion-Preview, un modèle de langage à diffusion issu de la conversion de son modèle autorégressif ZAYA1-8B-base existant. La conversion a nécessité 600 milliards de tokens d'entraînement intermédiaire à une longueur de contexte de 32 000 tokens, suivis de 500 milliards de tokens pour étendre nativement ce contexte à 128 000, puis une phase de fine-tuning supervisé en mode diffusion. Le résultat est le premier modèle à diffusion de type MoE (Mixture of Experts) converti à partir d'un LLM autorégressif, et le premier modèle de ce type entraîné sur des GPU AMD. Les gains de vitesse atteignent jusqu'à 7,7x par rapport au décodage autorégressif classique, sans dégradation notable des performances sur les benchmarks standards, avec même des améliorations sur certains, comme LCB-v6. L'enjeu technique est de taille. Les modèles de langage classiques génèrent les tokens un par un, ce qui oblige le GPU à charger depuis la mémoire le cache KV (les représentations de tous les tokens précédents) à chaque étape. Ce mécanisme rend le système limité par la bande passante mémoire plutôt que par la puissance de calcul, un goulot d'étranglement croissant alors que les GPU modernes voient leur capacité de calcul progresser bien plus vite que leur bande passante mémoire. Le modèle à diffusion contourne ce problème en générant 16 tokens simultanément dans un même bloc, tous partageant le même cache KV. L'opération devient alors dominée par le calcul plutôt que par les transferts mémoire, ce qui permet d'exploiter le matériel beaucoup plus efficacement. Un mécanisme inspiré du décodage spéculatif sélectionne ensuite les tokens acceptés, avec l'avantage que le même modèle joue à la fois le rôle de spéculateur et de vérificateur, éliminant le coût d'exécution de deux modèles distincts comme dans des approches concurrentes telles qu'EAGLE. La stratégie de Zyphra tranche avec les approches habituelles : plutôt que d'entraîner un modèle à diffusion de zéro, l'entreprise a converti un checkpoint existant, une décision motivée par deux raisons pratiques. L'entraînement from scratch en mode diffusion est techniquement difficile, avec peu de recettes établies. Surtout, la diffusion n'apporte aucun avantage à l'entraînement, la contrainte de bande passante mémoire n'existe qu'à l'inférence, ce qui permet de réutiliser entièrement les pipelines de préentraînement existants. Ce modèle s'inscrit dans une compétition plus large autour de l'efficacité à l'inférence, où plusieurs acteurs, dont Inception Labs et Mercury, explorent les modèles à diffusion comme alternative aux architectures autoregressives dominantes. La publication de ZAYA1-8B-Diffusion-Preview en accès ouvert sur Hugging Face, accompagnée d'une documentation technique détaillée, signale que Zyphra mise sur la transparence pour s'imposer dans ce domaine encore émergent.

💬 7,7x plus rapide sans perte sur les benchmarks, c'est le genre de chiffre qu'on a du mal à ignorer. Ce qui est malin ici, c'est pas d'avoir choisi la diffusion, c'est d'avoir converti un checkpoint existant plutôt que de repartir à zéro, parce que le gain n'existe qu'à l'inférence, pas à l'entraînement. Reste à voir si ça tient en prod.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic