Aller au contenu principal
Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité
LLMsMarkTechPost6sem· 2 min de lecture

Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité

Source originale ↗·

Google a annoncé le lancement de drafters Multi-Token Prediction (MTP) pour sa famille de modèles Gemma 4, quelques semaines seulement après que cette gamme a franchi les 60 millions de téléchargements. Cette architecture spécialisée de décodage spéculatif permet de tripler la vitesse d'inférence, soit un gain de 3x, sans aucune perte de qualité ni de précision dans les réponses générées. Les drafters sont disponibles pour plusieurs tailles de modèles, y compris les variantes E2B et E4B conçues pour fonctionner sur appareils mobiles et équipements edge.

Le problème que cette technologie résout est fondamental : les grands modèles de langage génèrent les tokens un par un, de manière séquentielle, ce qui oblige le système à charger continuellement des milliards de paramètres depuis la mémoire vidéo vers les unités de calcul. Le vrai goulot d'étranglement n'est pas la puissance brute du GPU, mais la bande passante mémoire, les processeurs restent largement sous-utilisés pendant que les données transitent. L'approche MTP contourne ce problème en découplant la génération de la vérification : un petit modèle "drafter" propose rapidement plusieurs tokens en avance, puis le modèle cible principal (comme Gemma 4 31B) vérifie l'ensemble de ces suggestions en un seul passage parallèle. Si les tokens proposés sont acceptés, l'application peut en sortir toute une séquence, plus un token supplémentaire généré par le modèle cible, dans le même temps qu'il aurait fallu pour en produire un seul. Le gain de vitesse est dit "sans perte" : la sortie finale est strictement identique à ce que le modèle aurait produit seul.

Sur le plan technique, Google a introduit plusieurs optimisations architecturales pour maximiser l'efficacité. Les drafters partagent le cache KV (key-value cache) du modèle cible, ce qui évite de recalculer les contextes d'attention déjà traités. Pour les modèles edge E2B et E4B, une technique de clustering dans la couche d'embedding accélère spécifiquement le calcul des logits, l'étape qui convertit les représentations internes du modèle en probabilités sur le vocabulaire, particulièrement coûteuse sur du matériel contraint. Cette annonce s'inscrit dans une course industrielle plus large à l'efficacité d'inférence : réduire les coûts de déploiement et la latence est devenu aussi stratégique que l'amélioration des capacités brutes des modèles, surtout à mesure que les LLM s'intègrent dans des applications temps réel et des appareils grand public.

Impact France/UE

Les développeurs et entreprises européens déployant Gemma 4 peuvent tripler leurs débits d'inférence sans surcoût matériel, notamment pour les usages edge et mobile.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
1Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte
2MarkTechPost 

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte

Google a publié DiffusionGemma, un modèle expérimental open source de 26 milliards de paramètres en architecture Mixture of Experts (MoE), sous licence Apache 2.0. Contrairement aux modèles de langage classiques qui génèrent les tokens un par un de gauche à droite, DiffusionGemma produit des blocs entiers de texte en parallèle, ce qui lui permet d'atteindre jusqu'à quatre fois la vitesse de génération des modèles autorégressifs traditionnels. Sur un GPU NVIDIA H100, il dépasse les 1 000 tokens par seconde ; sur un RTX 5090, il atteint plus de 700 tokens par seconde. Lors de l'inférence, seuls 3,8 milliards de paramètres sont activés. Le modèle, construit sur la base Gemma 4 26B-A4B, est multimodal : il traite du texte, des images et de la vidéo en entrée, dispose d'une fenêtre de contexte de 256 000 tokens, supporte plus de 140 langues et tient dans 18 Go de VRAM une fois quantifié, le rendant compatible avec les GPU grand public haut de gamme. L'intérêt principal de DiffusionGemma réside dans ses cas d'usage à contrainte de latence forte : édition de texte en ligne, itération rapide, génération de structures non linéaires. En déplaçant le goulot d'étranglement de la bande passante mémoire vers le calcul pur, le modèle exploite mieux les cœurs tensoriels inactifs des GPU locaux. Google cible explicitement les développeurs et chercheurs qui travaillent sur des workflows interactifs en local, où la vitesse prime sur la qualité absolue. L'entreprise est toutefois transparente sur le compromis : DiffusionGemma génère plus vite, mais sa qualité de sortie reste inférieure à celle de Gemma 4 autorégressif standard. Pour les productions critiques nécessitant une qualité maximale, Google recommande toujours ses modèles classiques. Le mécanisme au cœur de DiffusionGemma s'appelle Uniform State Diffusion, inspiré des générateurs d'images IA qui partent d'un bruit visuel pour le raffiner progressivement. Appliqué au texte, le modèle démarre avec un canvas de 256 tokens aléatoires, effectue plusieurs passes en attention bidirectionnelle, verrouille les tokens à haute confiance et les utilise comme contexte pour résoudre les positions adjacentes, jusqu'à ce que le texte converge. Cette attention bidirectionnelle, où chaque token peut en observer un autre dans n'importe quelle direction, tranche radicalement avec les modèles autorégressifs contraints à ne regarder qu'en arrière. Elle permet en outre une auto-correction en temps réel : si la confiance d'un token chute, le modèle peut le re-bruiter et le remplacer lors d'une passe suivante. Pour les sorties longues, Google a développé la Block Autoregressive Diffusion : une fois un bloc de 256 tokens finalisé, il est validé dans le cache KV et un nouveau canvas démarre, conditonné sur l'historique précédent. Cette approche hybride combine la vitesse du traitement parallèle et la stabilité séquentielle des architectures classiques.

UELes développeurs et chercheurs européens bénéficient d'un modèle open source sous licence Apache 2.0 utilisable sur GPU grand public, offrant une alternative locale à faible latence sans dépendance à des services cloud externes.

LLMsOpinion
1 source
Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks
3VentureBeat AI 

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

Google DeepMind a publié Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, un changement qui pourrait s'avérer plus décisif que n'importe quel score sur les benchmarks. Jusqu'ici, les versions précédentes de Gemma utilisaient une licence propriétaire avec des restrictions d'usage et des clauses modifiables unilatéralement par Google, ce qui poussait de nombreuses équipes entreprises à lui préférer Mistral ou Qwen d'Alibaba. Avec Gemma 4, Google adopte les mêmes termes permissifs que l'essentiel de l'écosystème open-weight : aucune restriction commerciale, aucune clause d'usage "nuisible" à interpréter juridiquement, redistribution libre. La famille se compose de quatre modèles répartis en deux niveaux. Le niveau "workstation" comprend un modèle dense à 31 milliards de paramètres et un modèle Mixture-of-Experts (MoE) de 26B A4B, tous deux capables de traiter texte et images avec une fenêtre de contexte de 256 000 tokens. Le niveau "edge" propose les modèles E2B et E4B, conçus pour smartphones, appareils embarqués et ordinateurs portables, supportant texte, image et audio avec 128 000 tokens de contexte. Ce changement de licence lève un frein majeur à l'adoption en entreprise. Les équipes juridiques et conformité qui bloquaient le déploiement de Gemma 3 n'auront plus de raison de le faire avec Gemma 4. Sur le plan architectural, le modèle MoE 26B A4B est particulièrement intéressant pour les décideurs IT : ses 25,2 milliards de paramètres totaux n'en activent que 3,8 milliards par inférence, ce qui lui permet de délivrer des performances comparables à un modèle dense de 27 à 31 milliards de paramètres, mais à la vitesse et au coût de calcul d'un modèle de 4 milliards. Pour les organisations qui opèrent des assistants de code, des pipelines de traitement documentaire ou des workflows agentiques multi-tours, cela se traduit directement par moins de GPU nécessaires, une latence réduite et un coût par token inférieur. Google propose également des checkpoints QAT (Quantization-Aware Training) pour maintenir la qualité à précision réduite, et les deux modèles "workstation" sont déjà disponibles en configuration serverless sur Google Cloud via Cloud Run avec des GPU NVIDIA RTX Pro 6000. Ce lancement s'inscrit dans une dynamique de marché significative. Alors que certains laboratoires chinois, dont Alibaba avec ses derniers modèles Qwen 3.5 Omni et Qwen 3.6 Plus, commencent à restreindre l'accès à leurs modèles les plus récents, Google fait le mouvement inverse en ouvrant pleinement son modèle le plus capable à ce jour, dont l'architecture s'inspire directement de la recherche derrière Gemini 3, son modèle commercial phare. Le choix des 128 petits experts dans le MoE plutôt qu'une poignée de grands experts reflète une optimisation délibérée pour les coûts d'inférence en production, un signal que Google cible désormais sérieusement les déploiements à grande échelle hors de ses propres infrastructures. Gemma 4 devrait apparaître rapidement dans des outils comme Ollama et LM Studio, ce qui accélérera encore son adoption.

UELa licence Apache 2.0 lève les blocages juridiques qui freinaient l'adoption de Gemma dans les entreprises européennes soumises à des obligations de conformité strictes.

💬 La licence Apache 2.0, c'est ce qui va faire la différence, pas les scores. Les équipes juridiques qui bloquaient Gemma 3 n'ont plus d'argument valable, et le MoE 26B qui n'active que 4B de paramètres à l'inférence, c'est du GPU économisé pour de vrai, pas du marketing. Reste à voir si Google tient la promesse de qualité à precision réduite sur des pipelines en production, mais l'angle est le bon.

LLMsOpinion
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
4Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic