Aller au contenu principal
Gemma 4 : intelligence multimodale de pointe sur appareil
LLMsHuggingFace Blog13sem· 1 min de lecture

Gemma 4 : intelligence multimodale de pointe sur appareil

Source originale ↗·

Google DeepMind a lancé Gemma 4, sa nouvelle génération de modèles open source, disponible depuis début avril 2025. Cette famille comprend quatre variantes allant de 1 milliard à 27 milliards de paramètres, toutes capables de traiter texte et images simultanément. Les modèles sont disponibles sur Hugging Face, Google AI Studio et Kaggle, avec des licences permissives autorisant leur usage commercial.

La particularité de Gemma 4 réside dans sa capacité multimodale optimisée pour les appareils locaux, depuis les smartphones jusqu'aux ordinateurs personnels, sans dépendance à un serveur distant. Le modèle 27B affiche des performances comparables à des systèmes bien plus volumineux sur les benchmarks de raisonnement et de vision, tandis que le 1B peut tourner directement sur mobile, ouvrant la voie à des applications IA entièrement hors ligne.

Cette sortie s'inscrit dans la compétition ouverte qui oppose Google à Meta, Microsoft et Mistral sur le segment des modèles open source embarqués. Depuis Gemma 1 en février 2024, Google a accéléré le rythme de ses publications pour ne pas céder ce terrain stratégique à Llama. La course aux modèles multimodaux légers devient un enjeu central pour l'IA souveraine et les usages professionnels sans connectivité cloud.

Impact France/UE

Les modèles embarqués sans dépendance cloud s'alignent avec les exigences d'IA souveraine portées par l'UE, facilitant des déploiements professionnels conformes au RGPD sans transfert de données vers des serveurs tiers.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public
1Le Big Data 

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

💬 C'est le genre de modèle qu'on attendait : multimodal, 16 Go de RAM, dispo sur Ollama maintenant. L'audio natif sans encodeur séparé, c'est la vraie nouveauté technique, et ça change quelque chose pour qui veut traiter de la voix en local sans envoyer ses données quelque part. Reste à voir si les perfs tiennent dans les vrais usages, mais j'ai déjà lancé le pull.

LLMsOpinion
1 source
Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur
2InfoQ AI 

Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur

Google a présenté Gemma 4 12B, un modèle multimodal de 12 milliards de paramètres conçu pour fonctionner directement sur des machines grand public, ordinateurs portables inclus. Contrairement à ses prédécesseurs, ce modèle adopte une architecture sans encodeur (encoder-free), ce qui réduit la complexité et les ressources nécessaires à l'inférence locale. Combiné à Google AI Edge, Gemma 4 12B permet de construire des workflows agentiques complets en local, sans dépendre du cloud : traitement autonome de données, génération d'analyses visuelles, création de pages web ou exécution d'outils externes. L'enjeu est significatif pour les développeurs et les entreprises soucieuses de confidentialité ou de latence. Disposer d'un modèle multimodal capable de raisonnement agentique sur une machine locale élimine les coûts d'API, les délais réseau et les risques liés à l'envoi de données sensibles vers des serveurs distants. C'est un changement concret pour les cas d'usage professionnels où les données ne peuvent pas quitter l'environnement de travail. Google positionne ainsi Gemma 4 12B dans une course qui oppose désormais plusieurs acteurs majeurs sur le terrain des modèles embarqués : Apple avec ses modèles on-device, Meta avec Llama, et Microsoft avec Phi. L'approche encoder-free de Google représente un pari architectural distinctif pour maximiser l'efficacité à paramètres équivalents. La disponibilité via Google AI Edge laisse également présager une intégration future dans l'écosystème Android et les appareils Pixel, élargissant potentiellement le déploiement à des centaines de millions d'appareils.

UEL'inférence locale sans envoi vers le cloud répond directement aux exigences RGPD pour les entreprises européennes traitant des données sensibles.

💬 Un multimodal agentique qui tourne en local sans encodeur, c'est pas juste un benchmark de plus. Pour les boîtes qui ne peuvent pas envoyer leurs données dans le cloud, ça ouvre des cas d'usage qui étaient bloqués depuis des mois. Reste à voir si les perfs visuelles suivent vraiment sans encodeur, c'est le pari architectural de Google.

LLMsOpinion
1 source
Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch
3Frandroid 

Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch

Une développeuse a réussi à faire tourner Gemma 4, le modèle d'intelligence artificielle open source de Google, directement sur une Nintendo Switch, sans connexion à un serveur distant. L'exploit repose sur la version la plus compacte du modèle, publiée par Google en avril 2025 dans le cadre de sa gamme Gemma 4, qui décline plusieurs tailles allant de 1 à 27 milliards de paramètres. C'est la variante 1B, soit un milliard de paramètres, qui a été portée sur la console de Nintendo, dont le matériel repose sur une puce NVIDIA Tegra X1 et 4 Go de RAM partagée. Cet accomplissement illustre la progression rapide de la miniaturisation des modèles de langage et leur capacité à s'exécuter sur du matériel grand public, bien loin des serveurs GPU qui équipent habituellement ce type de charge de travail. Pour les développeurs embarqués et les constructeurs d'appareils connectés, cela ouvre des perspectives concrètes : intégrer des capacités d'inférence locale dans des terminaux à faible consommation, sans dépendance au cloud et sans coût de bande passante. Google a lancé la famille Gemma comme alternative ouverte à ses modèles propriétaires Gemini, ciblant explicitement les usages sur appareil. La Switch, conçue en 2017, n'était évidemment pas pensée pour l'IA générative, ce qui rend la démonstration d'autant plus symbolique. Elle s'inscrit dans une tendance plus large de course à l'efficience, où des acteurs comme Meta avec Llama, Microsoft avec Phi ou Apple avec ses modèles on-device cherchent tous à repousser les limites du possible sur silicium contraint.

LLMsActu
1 source
Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
4MarkTechPost 

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic