
Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée
Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.
UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.













































