LLMsMarkTechPost · 10 juin 2026, 21:50· 2 min de lecture

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte

Egalement couvert par :The Decoder ↗

Google a publié DiffusionGemma, un modèle expérimental open source de 26 milliards de paramètres en architecture Mixture of Experts (MoE), sous licence Apache 2.0. Contrairement aux modèles de langage classiques qui génèrent les tokens un par un de gauche à droite, DiffusionGemma produit des blocs entiers de texte en parallèle, ce qui lui permet d'atteindre jusqu'à quatre fois la vitesse de génération des modèles autorégressifs traditionnels. Sur un GPU NVIDIA H100, il dépasse les 1 000 tokens par seconde ; sur un RTX 5090, il atteint plus de 700 tokens par seconde. Lors de l'inférence, seuls 3,8 milliards de paramètres sont activés. Le modèle, construit sur la base Gemma 4 26B-A4B, est multimodal : il traite du texte, des images et de la vidéo en entrée, dispose d'une fenêtre de contexte de 256 000 tokens, supporte plus de 140 langues et tient dans 18 Go de VRAM une fois quantifié, le rendant compatible avec les GPU grand public haut de gamme.

L'intérêt principal de DiffusionGemma réside dans ses cas d'usage à contrainte de latence forte : édition de texte en ligne, itération rapide, génération de structures non linéaires. En déplaçant le goulot d'étranglement de la bande passante mémoire vers le calcul pur, le modèle exploite mieux les cœurs tensoriels inactifs des GPU locaux. Google cible explicitement les développeurs et chercheurs qui travaillent sur des workflows interactifs en local, où la vitesse prime sur la qualité absolue. L'entreprise est toutefois transparente sur le compromis : DiffusionGemma génère plus vite, mais sa qualité de sortie reste inférieure à celle de Gemma 4 autorégressif standard. Pour les productions critiques nécessitant une qualité maximale, Google recommande toujours ses modèles classiques.

Le mécanisme au cœur de DiffusionGemma s'appelle Uniform State Diffusion, inspiré des générateurs d'images IA qui partent d'un bruit visuel pour le raffiner progressivement. Appliqué au texte, le modèle démarre avec un canvas de 256 tokens aléatoires, effectue plusieurs passes en attention bidirectionnelle, verrouille les tokens à haute confiance et les utilise comme contexte pour résoudre les positions adjacentes, jusqu'à ce que le texte converge. Cette attention bidirectionnelle, où chaque token peut en observer un autre dans n'importe quelle direction, tranche radicalement avec les modèles autorégressifs contraints à ne regarder qu'en arrière. Elle permet en outre une auto-correction en temps réel : si la confiance d'un token chute, le modèle peut le re-bruiter et le remplacer lors d'une passe suivante. Pour les sorties longues, Google a développé la Block Autoregressive Diffusion : une fois un bloc de 256 tokens finalisé, il est validé dans le cache KV et un nouveau canvas démarre, conditonné sur l'historique précédent. Cette approche hybride combine la vitesse du traitement parallèle et la stabilité séquentielle des architectures classiques.

Impact France/UE

Les développeurs et chercheurs européens bénéficient d'un modèle open source sous licence Apache 2.0 utilisable sur GPU grand public, offrant une alternative locale à faible latence sans dépendance à des services cloud externes.

Dans nos dossiers

NVIDIA Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion

1 source

2MarkTechPost

Tencent lance Hy3, un modèle MoE ouvert de 295 milliards de paramètres (21 milliards actifs) et 256K de contexte

Tencent a présenté Hy3, un nouveau modèle de langage à architecture Mixture-of-Experts (MoE) doté de 295 milliards de paramètres au total, dont seulement 21 milliards sont activés à chaque requête grâce à un système de 192 experts avec routage top-8. Le modèle intègre également une couche de prédiction multi-tokens (MTP) de 3,8 milliards de paramètres, compatible avec vLLM et SGLang pour accélérer le décodage. Hy3 gère un contexte de 256 000 tokens, dispose d'un vocabulaire de 120 832 éléments et repose sur 80 couches en précision BF16, avec une version allégée en FP8 également disponible. Les poids sont publiés sous licence Apache 2.0, rendant le modèle librement réutilisable. Sur le plan des performances, Tencent revendique un score de 78,0 sur SWE-Bench Verified, 57,9 sur SWE-Bench Pro et 90,4 sur GPQA Diamond, ainsi que 90,0 sur IMOAnswerBench. Un test à l'aveugle mené auprès de 270 experts, totalisant 312 comparaisons sur des tâches réelles, a donné à Hy3 un score de 2,67 sur 4, devançant GLM-5.1 crédité de 2,51, notamment sur le développement frontend, les pipelines CI/CD et la gestion de données. Cette publication marque une avancée notable pour les modèles ouverts destinés aux usages professionnels et agentiques. Tencent a concentré une grande partie de ses efforts sur la fiabilité en production, un point souvent négligé par les modèles expérimentaux. Le taux d'hallucination est ainsi passé de 12,5 % à 5,4 % dans les évaluations internes, tandis que les erreurs de bon sens ont chuté de 25,4 % à 12,7 %. Le suivi des intentions sur plusieurs tours de conversation s'est également amélioré, avec un taux d'incidents internes réduit de 17,4 % à 7,9 %, et un score passant de 42,9 % à 75,1 % sur le benchmark de dialogue long MRCR. Ces progrès concernent directement les développeurs qui déploient des agents autonomes pour la programmation ou le traitement de documents longs, un secteur où les erreurs d'appels d'outils et les boucles infinies restent un frein majeur à l'adoption en production. Le modèle s'inscrit dans un contexte de compétition intense entre acteurs chinois et américains sur les modèles ouverts à grande échelle, avec des rivaux comme GLM-5.1 pris comme référence de comparaison directe. Hy3 expose une API compatible OpenAI, déployable via vLLM ou SGLang, avec un paramètre reasoningeffort ajustable entre "nothink", "low" et "high" selon la complexité de la tâche, les développeurs de Tencent recommandant une température de 0,9 et un top_p de 1,0. Le modèle est aussi accessible sans matériel local via OpenRouter, où une route gratuite tencent/hy3:free est proposée, mais cette gratuité doit prendre fin le 21 juillet 2026. Les cas d'usage visés incluent les agents de programmation capables d'ingérer un dépôt entier grâce à la fenêtre de contexte de 256 000 tokens, ainsi que le traitement de documents longs comme des contrats, positionnant Hy3 comme un outil taillé pour les flux de travail professionnels exigeants en fiabilité et en capacité de raisonnement.

UECe modèle ouvert sous licence Apache 2.0 élargit l'offre disponible pour les entreprises et développeurs européens souhaitant déployer des agents IA sans dépendre des acteurs américains, mais aucune entité ou régulation française ou européenne n'est directement impliquée.

LLMsActu

1 source

3MarkTechPost

NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B

NVIDIA a publié Nemotron-Labs-Diffusion, une nouvelle famille de modèles de langage disponible en trois tailles, 3, 8 et 14 milliards de paramètres, avec des variantes de base, instruction et vision-langage. La particularité de cette architecture réside dans sa capacité à fonctionner selon trois modes de décodage distincts au sein d'un seul et même jeu de poids : le décodage autorégressif classique (AR), le décodage par diffusion parallèle, et un mode dit de "self-speculation". L'entraînement combine un objectif AR standard et un objectif de débruitage par diffusion, pondérés selon la formule L(θ) = LAR(θ) + 0,3 × Ldiff(θ). Le coefficient 0,3 a été déterminé par ablation sur une plage de 0,1 à 1,0, et s'est révélé optimal pour les deux modes simultanément. La procédure d'entraînement se déroule en deux phases : un trillion de tokens en mode purement autorégressif pour ancrer des priors linguistiques solides, suivi de 300 milliards de tokens supplémentaires avec l'objectif conjoint. Ce modèle répond à un problème fondamental des LLMs déployés en production : les modèles autorégressifs génèrent un token à la fois, ce qui sous-exploite massivement les GPU dans les scénarios à faible concurrence, typiquement les déploiements en edge ou pour un utilisateur unique. Le mode diffusion de Nemotron-Labs-Diffusion génère plusieurs tokens en parallèle par passe, grâce à une attention bidirectionnelle à l'intérieur de blocs contigus, tout en conservant une attention causale entre blocs pour réutiliser le cache KV. Le mode self-speculation est encore plus original : la voie diffusion génère un bloc de k tokens candidats, que la voie AR vérifie en une seconde passe, en validant le préfixe contigu le plus long. Chaque cycle produit entre 1 et k+1 tokens vérifiés, sans modèle auxiliaire ni tête de prédiction séparée, une différence notable par rapport aux approches comme Eagle3 ou Multi-Token Prediction. Les modèles de diffusion pour le langage souffrent depuis leur émergence d'un déficit de précision par rapport aux modèles autorégressifs : ils nécessitent davantage de données pour atteindre des performances comparables, notamment parce qu'ils ne tirent pas parti du biais gauche-droite naturel du langage. NVIDIA tente de résoudre cette tension structurelle en entraînant un modèle unique sur les deux objectifs, ce qui, selon leurs ablations, apporte un gain moyen de +7,48% via le seul ajout de la perte AR, et +5,74% grâce à l'entraînement en deux étapes. La publication de cette famille de modèles s'inscrit dans une compétition intense autour de l'efficacité inférentielle, où Qwen3-8B sert de référence explicite, NVIDIA revendiquant un ratio de 6× tokens par passe vers l'avant. La prochaine étape naturelle sera de voir si ces gains se confirment dans des benchmarks indépendants et des déploiements réels, et si l'approche tri-modale s'impose comme standard pour les futurs modèles hybrides.

LLMsOpinion

1 source

4VentureBeat AI

DiffusionGemma de Google génère 256 tokens en parallèle et s'autocorrige à la volée

Google a publié cette semaine DiffusionGemma, un modèle de langage open source expérimental qui abandonne la génération séquentielle de texte au profit d'une approche par diffusion, inspirée des générateurs d'images comme Stable Diffusion. Construit sur l'architecture Gemma 4 et distribué sous licence Apache 2.0, le modèle génère 256 tokens simultanément en parallèle plutôt qu'un par un, chaque position du bloc ayant accès au contexte complet dans les deux sens. Sur un seul GPU Nvidia H100, la version quantifiée FP8 atteint 1 008 tokens par seconde, et 1 288 sur H200, soit environ six fois les performances d'un modèle autorégressif classique selon les benchmarks vLLM publiés le même jour. Google revendique un gain de vitesse jusqu'à 4x par rapport aux modèles standards sur GPU. C'est également le premier modèle de diffusion textuelle nativement intégré dans la plateforme d'inférence open source vLLM, avec un modèle Mixture of Experts de 26 milliards de paramètres n'en activant que 3,8 milliards à l'inférence, tenant dans 18 Go de VRAM et donc compatible avec une RTX 4090 ou 5090. L'intérêt principal de cette approche réside dans deux propriétés structurelles absentes des modèles actuels : l'autocorrection et le contexte bidirectionnel. Un modèle autorégressif classique est incapable de revenir sur un token déjà émis, même incorrect, car les tokens suivants en sont déjà conditionnés. DiffusionGemma part d'un bloc de 256 tokens aléatoires, passe plusieurs fois sur l'ensemble, verrouille les positions les plus certaines, randomise les incertaines et les reconsidère à la lumière de ce qui a déjà été stabilisé. Google illustre cette capacité avec un solveur de Sudoku finement ajusté : le modèle de base résolvait zéro grille, après fine-tuning il atteint 80% de réussite en 12 passes de débruitage au lieu de 48, grâce à l'arrêt précoce permis par l'autocorrection. Pour les déploiements locaux ou à faible concurrence, où un GPU classique passe l'essentiel du temps à attendre des tokens un par un, le gain est particulièrement concret. L'architecture représente un changement de paradigme pour l'inférence de modèles de langage, même si Google a été transparent sur ses limites : la qualité globale des sorties reste inférieure à celle de Gemma 4 standard, et l'entreprise recommande explicitement ce dernier pour les applications exigeant une qualité maximale. L'intégration dans vLLM a nécessité des développements spécifiques puisque DiffusionGemma alterne entre attention causale et bidirectionnelle selon la phase de traitement, une première pour la plateforme. Google et Nvidia ont co-optimisé les noyaux NVFP4 pour les serveurs Hopper et Blackwell d'entreprise. La nouvelle interface ModelState conçue pour cette intégration est pensée pour accueillir d'autres modèles de diffusion à venir, signalant que cette direction de recherche est désormais considérée comme mûre pour la production.

UELes développeurs et chercheurs européens peuvent déployer DiffusionGemma localement sur GPU grand public (RTX 4090/5090, 18 Go VRAM) via vLLM sous licence Apache 2.0, réduisant la dépendance aux services cloud pour l'inférence rapide.

💬 Le plus intéressant là-dedans, c'est pas la vitesse, c'est l'autocorrection : un autorégressif classique ne peut pas revenir sur un token raté une fois que les suivants s'en sont emparés. DiffusionGemma repart du début à chaque passe, verrouille ce qui est certain, reconsidère le reste, et ça change la logique d'inférence plus profondément qu'un simple gain de débit. La qualité reste sous Gemma 4 standard, Google le dit lui-même, donc pas encore pour la prod, mais comme signal de recherche, c'est le genre de truc qu'on attendait.

LLMsPaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic