Aller au contenu principal
NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B
LLMsMarkTechPost6sem· 2 min de lecture

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Source originale ↗·

Des chercheurs de NVIDIA ont publié une étude intégrée à NeMo RL v0.6.0 qui accélère significativement la phase d'entraînement par renforcement des grands modèles de langage grâce au décodage spéculatif. Le principe repose sur un petit modèle dit "brouillon" qui propose plusieurs tokens en avance, tandis que le modèle principal, celui qu'on entraîne réellement, les vérifie via un mécanisme de rejet statistique. Sur 32 GPU GB200 (8 nœuds NVL72), cette approche réduit la latence de génération de 100 secondes à 56,6 secondes sur la tâche RL-Zero, soit un gain de 1,8× sur la génération. À l'échelle d'un modèle de 235 milliards de paramètres, les projections donnent un gain de bout en bout de 2,5×. Le framework EAGLE-3 est utilisé comme moteur de brouillon, compatible avec n'importe quel modèle pré-entraîné sans nécessiter de tête de prédiction multi-token native.

Ce résultat est particulièrement précieux parce qu'il ne sacrifie rien à la fidélité d'entraînement. La génération par rollout représente entre 65 et 72 % du temps total d'une étape RL, mesure faite sur Qwen3-8B dans deux configurations, RL-Think et RL-Zero. C'est donc le seul goulet d'étranglement qui vaille la peine d'être attaqué. Or les méthodes habituelles d'accélération, exécution asynchrone, replay hors-politique, précision réduite, introduisent toutes un décalage de distribution qui contamine le signal d'entraînement. Le décodage spéculatif, lui, garantit mathématiquement que la distribution de sortie du modèle cible reste identique à ce qu'elle aurait été sans brouillon. Aucune correction hors-politique, aucun biais introduit dans la récompense.

L'intégration dans une boucle d'entraînement par renforcement posait néanmoins un défi d'ingénierie non trivial : à chaque mise à jour des poids de la politique, le modèle brouillon doit rester aligné avec cette politique en évolution. NVIDIA a résolu cela avec une architecture à deux chemins dans NeMo RL, un chemin général via EAGLE-3 et un chemin natif pour les modèles disposant de têtes MTP intégrées. Lorsque l'adaptation en ligne du brouillon est activée, les états cachés et log-probabilités issus du passage avant du vérificateur MegatronLM sont réutilisés pour superviser la tête brouillon via un gradient détaché, de sorte que l'entraînement du brouillon n'interfère jamais avec le gradient de politique. Cette fonctionnalité est désormais disponible en production dans NeMo RL v0.6.0, aux côtés du backend SGLang, de l'optimiseur Muon et de l'entraînement long contexte YaRN.

💬 L'analyse de Mathieu

Le vrai problème du RLHF à grande échelle, c'est que 70% du temps tu le passes juste à générer des rollouts. NVIDIA s'y attaque proprement avec le décodage spéculatif dans NeMo : un modèle brouillon qui anticipe, un modèle principal qui valide, et la garantie mathématique que la distribution reste intacte, pas de biais hors-politique introduit en douce. 1,8× sur 8B, 2,5× visé sur 235B, c'est le genre d'optimisation qu'on attendait depuis qu'on fait du RL sérieusement.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images
1Latent Space 

[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images

Le 2 et 3 juin 2026, l'industrie de l'intelligence artificielle a connu une journée particulièrement dense. Microsoft a dévoilé MAI-Thinking-1, un modèle de raisonnement généraliste entraîné sans distillation de modèles tiers, qui atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro, tout en surpassant Claude Sonnet 4.6 dans des comparaisons en aveugle selon les préférences humaines. Le rapport technique de 109 pages qui accompagne le lancement a été largement salué pour sa transparence inhabituelle : aucune donnée synthétique, aucun modèle préexistant utilisé comme point de départ, et les capacités de raisonnement et d'utilisation d'outils acquises uniquement en post-entraînement. Le même jour, les plateformes de génération d'images Reve 2 et Ideogram 4.0 lançaient simultanément des avancées majeures dans la composition et la mise en page visuelle, pendant que Google publiait Gemma 4 12B, un modèle multimodal open source sous licence Apache 2.0, conçu pour fonctionner en local avec environ 16 Go de VRAM. Le rapport MAI-Thinking-1 a particulièrement retenu l'attention des chercheurs pour ses détails techniques inhabituels : Microsoft y révèle sa composition d'entraînement exacte (50 % de code, 17,5 % de STEM, 17,5 % de mathématiques, 10 % de culture générale, 5 % de multilinguisme), sa recette de montée en puissance progressive et ses ratios de calcul précis. Au-delà du modèle lui-même, la firme pousse une stratégie d'appropriation par les entreprises via le "Frontier Tuning", un système de personnalisation par renforcement qui permettrait à des modèles MAI adaptés à des tâches spécifiques d'atteindre des performances comparables à GPT-5.4 avec une efficacité dix fois supérieure. Gemma 4 12B, de son côté, introduit une architecture sans encodeur séparé pour la vision ou l'audio, toutes les modalités étant intégrées directement dans le backbone du LLM, avec un support immédiat sous vLLM, Ollama et llama.cpp, et des versions quantifiées fonctionnant sur seulement 8 Go de RAM. Ces sorties s'inscrivent dans une compétition accélérée entre laboratoires pour la maîtrise du raisonnement et du multimodal. Microsoft tente un positionnement inédit : combiner la transparence académique d'un rapport de recherche frontalier avec une infrastructure de personnalisation d'entreprise clé en main, une approche que ni OpenAI ni Google n'ont encore formalisée à cette échelle. Sur le front de l'image, le fait que Reve et Ideogram lancent le même jour des progrès sur la composition visuelle signale que ce verrou technique, longtemps considéré comme partiellement insolvable par les IA, a été levé collectivement en 2026. Ideogram 4.0 se positionne désormais comme le meilleur modèle d'image en accès ouvert, même si les classements Arena placent GPT-Image-2 encore nettement au-dessus. La convergence de ces annonces en une seule journée illustre la cadence désormais hebdomadaire des percées en IA générative.

UEGemma 4 12B, disponible sous licence Apache 2.0 et compatible Ollama, offre aux développeurs et chercheurs européens un modèle multimodal performant utilisable en local sans dépendance à un cloud américain.

💬 Composer du texte, superposer des éléments, gérer les proportions, c'était le talon d'Achille de tous les générateurs d'image. Que Reve et Ideogram sortent ça le même jour, c'est le genre de synchronisation qui signale que quelque chose s'est débloqué en profondeur. Reste à voir si Ideogram 4 tient son rang face à GPT-Image-2 dans la durée, parce que les classements Arena ont leurs angles morts.

LLMsActu
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
2Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source
Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
3Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale
4NVIDIA AI Blog 

NVIDIA accélère DiffusionGemma de Google DeepMind pour l'IA locale

Google DeepMind a lancé DiffusionGemma, un modèle de langage expérimental open source qui abandonne la génération séquentielle au profit d'une approche par diffusion. Construit sur l'architecture Gemma 4, un modèle mixture-of-experts de 26 milliards de paramètres n'activant que 3,8 milliards par étape, DiffusionGemma génère jusqu'à 256 tokens en parallèle à chaque passe plutôt qu'un seul à la fois. NVIDIA a optimisé ce modèle pour l'ensemble de sa gamme matérielle, et les chiffres sont frappants : 1 000 tokens par seconde sur une carte H100, 150 tokens/sec sur le DGX Spark, 800 tokens/sec sur la DGX Station, et environ quatre fois plus vite qu'un modèle autorégressif équivalent en usage mono-utilisateur. Le modèle est disponible sous licence Apache 2.0 avec un support immédiat dans Hugging Face Transformers, vLLM et Unsloth, et s'exécute entièrement en local sans coût par token. Cette vitesse change concrètement l'expérience pour les développeurs, chercheurs et passionnés d'IA qui font tourner des workflows agentiques ou des assistants interactifs. Les modèles autorégressifs classiques sont fondamentalement limités par la bande passante mémoire en usage mono-utilisateur : le GPU attend plus qu'il ne calcule. L'approche par diffusion retourne l'équation. En traitant un bloc de 256 tokens d'un coup, DiffusionGemma exploite pleinement les Tensor Cores de NVIDIA, conçus pour des calculs matriciels denses en parallèle. Les boucles agentiques, les chats interactifs et les assistants embarqués peuvent désormais répondre à la vitesse à laquelle un développeur pense et itère. Le modèle tourne localement sur les GPU GeForce RTX, les stations de travail RTX PRO 6000, le DGX Spark avec ses 128 Go de mémoire unifiée, et la DGX Station avec ses 748 Go de mémoire cohérente. L'approche par diffusion pour le texte s'inspire du domaine de la génération d'images, où le principe consiste à débruiter progressivement un signal aléatoire pour obtenir un résultat cohérent. Appliquée au langage, cette méthode restait jusqu'ici expérimentale et peu compétitive face aux LLM autorégressifs dominant le marché. DiffusionGemma marque une étape plus sérieuse : Google DeepMind lui apporte une base architecturale solide avec Gemma 4, et NVIDIA l'optimisation matérielle nécessaire pour en faire un outil pratique dès le premier jour. Un support llama.cpp pour les GeForce RTX grand public est annoncé prochainement, ce qui pourrait rendre la génération ultra-rapide accessible au plus grand nombre sans infrastructure cloud. Si les performances en qualité de génération se confirment à l'usage, le modèle pourrait bousculer les hypothèses de base sur lesquelles repose l'architecture de tous les grands LLM actuels.

UELa disponibilité sous licence Apache 2.0 et l'exécution locale sans coût par token ouvrent de nouvelles options pour les développeurs et chercheurs européens souhaitant déployer des workflows agentiques sans dépendance au cloud.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic