
DiffusionGemma de Google génère 256 tokens en parallèle et s'autocorrige à la volée
Google a publié cette semaine DiffusionGemma, un modèle de langage open source expérimental qui abandonne la génération séquentielle de texte au profit d'une approche par diffusion, inspirée des générateurs d'images comme Stable Diffusion. Construit sur l'architecture Gemma 4 et distribué sous licence Apache 2.0, le modèle génère 256 tokens simultanément en parallèle plutôt qu'un par un, chaque position du bloc ayant accès au contexte complet dans les deux sens. Sur un seul GPU Nvidia H100, la version quantifiée FP8 atteint 1 008 tokens par seconde, et 1 288 sur H200, soit environ six fois les performances d'un modèle autorégressif classique selon les benchmarks vLLM publiés le même jour. Google revendique un gain de vitesse jusqu'à 4x par rapport aux modèles standards sur GPU. C'est également le premier modèle de diffusion textuelle nativement intégré dans la plateforme d'inférence open source vLLM, avec un modèle Mixture of Experts de 26 milliards de paramètres n'en activant que 3,8 milliards à l'inférence, tenant dans 18 Go de VRAM et donc compatible avec une RTX 4090 ou 5090.
L'intérêt principal de cette approche réside dans deux propriétés structurelles absentes des modèles actuels : l'autocorrection et le contexte bidirectionnel. Un modèle autorégressif classique est incapable de revenir sur un token déjà émis, même incorrect, car les tokens suivants en sont déjà conditionnés. DiffusionGemma part d'un bloc de 256 tokens aléatoires, passe plusieurs fois sur l'ensemble, verrouille les positions les plus certaines, randomise les incertaines et les reconsidère à la lumière de ce qui a déjà été stabilisé. Google illustre cette capacité avec un solveur de Sudoku finement ajusté : le modèle de base résolvait zéro grille, après fine-tuning il atteint 80% de réussite en 12 passes de débruitage au lieu de 48, grâce à l'arrêt précoce permis par l'autocorrection. Pour les déploiements locaux ou à faible concurrence, où un GPU classique passe l'essentiel du temps à attendre des tokens un par un, le gain est particulièrement concret.
L'architecture représente un changement de paradigme pour l'inférence de modèles de langage, même si Google a été transparent sur ses limites : la qualité globale des sorties reste inférieure à celle de Gemma 4 standard, et l'entreprise recommande explicitement ce dernier pour les applications exigeant une qualité maximale. L'intégration dans vLLM a nécessité des développements spécifiques puisque DiffusionGemma alterne entre attention causale et bidirectionnelle selon la phase de traitement, une première pour la plateforme. Google et Nvidia ont co-optimisé les noyaux NVFP4 pour les serveurs Hopper et Blackwell d'entreprise. La nouvelle interface ModelState conçue pour cette intégration est pensée pour accueillir d'autres modèles de diffusion à venir, signalant que cette direction de recherche est désormais considérée comme mûre pour la production.
Les développeurs et chercheurs européens peuvent déployer DiffusionGemma localement sur GPU grand public (RTX 4090/5090, 18 Go VRAM) via vLLM sous licence Apache 2.0, réduisant la dépendance aux services cloud pour l'inférence rapide.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




