NVIDIA lance Nemotron-Labs-TwoTower, un modèle de langage à diffusion à poids ouverts basé sur un backbone autorégressif figé Nemotron-3-Nano-30B-A3B
NVIDIA a publié Nemotron-Labs-TwoTower, un modèle de langage à diffusion construit à partir du backbone autorégressif ouvert Nemotron-3-Nano-30B-A3B, sous licence NVIDIA Nemotron Open Model License. Contrairement aux modèles autorégressifs classiques qui génèrent un token à la fois, ce qui limite le débit de génération, TwoTower produit les tokens en parallèle puis les affine par itérations successives. L'innovation tient dans la séparation en deux tours distinctes là où la plupart des modèles à diffusion utilisent un seul réseau pour représenter les tokens propres et débruiter les tokens corrompus. Chaque tour compte 52 couches, réparties entre 23 couches Mamba-2, 6 couches d'auto-attention et 23 couches de mixture d'experts, pour un total d'environ 60 milliards de paramètres, dont seulement 3 milliards actifs par token et par tour. Sur les 128 experts routables, 6 s'activent à chaque passage, complétés par 2 experts partagés. Les deux tours partent du même point de contrôle, mais seule la tour de débruitage a été entraînée, sur environ 2 100 milliards de tokens, contre 25 000 milliards pour le backbone original resté figé.
Cette architecture permet à NVIDIA d'annoncer un débit de génération 2,42 fois supérieur à celui du modèle autorégressif de référence, tout en conservant 98,7% de sa qualité agrégée sur les benchmarks, mesurée sur deux GPU H100 en précision BF16 avec un seuil de confiance de 0,8 et des blocs de 16 tokens. Concrètement, les scores de connaissances générales comme MMLU restent à moins d'un point d'écart avec l'original, tandis que les tâches de code et de mathématiques, comme HumanEval ou MATH-500, accusent un recul plus net, et que les tâches de sens commun et de multilinguisme, comme WinoGrande ou MGSM, sont préservées voire légèrement améliorées. Ce compromis intéresse directement les entreprises qui déploient des modèles de langage à grande échelle, où le coût et la latence de l'inférence pèsent lourd sur les factures de calcul: gagner plus du double en vitesse pour une perte de qualité inférieure à 2% change concrètement l'équation économique des déploiements en production.
Sur le plan technique, la tour de contexte autorégressive traite le prompt et les tokens déjà validés de façon causale, en générant un cache clé-valeur et des états Mamba-2 exploités couche par couche par la tour de débruitage via un mécanisme d'attention croisée alignée, une amélioration par rapport aux approches précédentes qui ne transmettaient que le dernier état caché. La génération se fait bloc par bloc: chaque bloc commence masqué, se raffine sur plusieurs étapes de diffusion, puis se valide avant que la tour de contexte ne mette à jour ses caches. Le fait qu'un unique point de contrôle permette de basculer entre les modes diffusion, pseudo-autorégressif et purement autorégressif ouvre la voie à des déploiements flexibles, où les développeurs pourront arbitrer entre vitesse et fidélité selon les besoins de chaque application, une piste que d'autres laboratoires travaillant sur les architectures hybrides devraient probablement explorer à leur tour.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




