
Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur
Google a présenté Gemma 4 12B, un modèle multimodal de 12 milliards de paramètres conçu pour fonctionner directement sur des machines grand public, ordinateurs portables inclus. Contrairement à ses prédécesseurs, ce modèle adopte une architecture sans encodeur (encoder-free), ce qui réduit la complexité et les ressources nécessaires à l'inférence locale. Combiné à Google AI Edge, Gemma 4 12B permet de construire des workflows agentiques complets en local, sans dépendre du cloud : traitement autonome de données, génération d'analyses visuelles, création de pages web ou exécution d'outils externes.
L'enjeu est significatif pour les développeurs et les entreprises soucieuses de confidentialité ou de latence. Disposer d'un modèle multimodal capable de raisonnement agentique sur une machine locale élimine les coûts d'API, les délais réseau et les risques liés à l'envoi de données sensibles vers des serveurs distants. C'est un changement concret pour les cas d'usage professionnels où les données ne peuvent pas quitter l'environnement de travail.
Google positionne ainsi Gemma 4 12B dans une course qui oppose désormais plusieurs acteurs majeurs sur le terrain des modèles embarqués : Apple avec ses modèles on-device, Meta avec Llama, et Microsoft avec Phi. L'approche encoder-free de Google représente un pari architectural distinctif pour maximiser l'efficacité à paramètres équivalents. La disponibilité via Google AI Edge laisse également présager une intégration future dans l'écosystème Android et les appareils Pixel, élargissant potentiellement le déploiement à des centaines de millions d'appareils.
L'inférence locale sans envoi vers le cloud répond directement aux exigences RGPD pour les entreprises européennes traitant des données sensibles.
Un multimodal agentique qui tourne en local sans encodeur, c'est pas juste un benchmark de plus. Pour les boîtes qui ne peuvent pas envoyer leurs données dans le cloud, ça ouvre des cas d'usage qui étaient bloqués depuis des mois. Reste à voir si les perfs visuelles suivent vraiment sans encodeur, c'est le pari architectural de Google.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




