Gemma 4 12B permet des flux de travail…

Gemma 4 : intelligence multimodale de pointe sur appareil

47

1HuggingFace Blog

Gemma 4 : intelligence multimodale de pointe sur appareil

Google DeepMind a lancé Gemma 4, sa nouvelle génération de modèles open source, disponible depuis début avril 2025. Cette famille comprend quatre variantes allant de 1 milliard à 27 milliards de paramètres, toutes capables de traiter texte et images simultanément. Les modèles sont disponibles sur Hugging Face, Google AI Studio et Kaggle, avec des licences permissives autorisant leur usage commercial. La particularité de Gemma 4 réside dans sa capacité multimodale optimisée pour les appareils locaux, depuis les smartphones jusqu'aux ordinateurs personnels, sans dépendance à un serveur distant. Le modèle 27B affiche des performances comparables à des systèmes bien plus volumineux sur les benchmarks de raisonnement et de vision, tandis que le 1B peut tourner directement sur mobile, ouvrant la voie à des applications IA entièrement hors ligne. Cette sortie s'inscrit dans la compétition ouverte qui oppose Google à Meta, Microsoft et Mistral sur le segment des modèles open source embarqués. Depuis Gemma 1 en février 2024, Google a accéléré le rythme de ses publications pour ne pas céder ce terrain stratégique à Llama. La course aux modèles multimodaux légers devient un enjeu central pour l'IA souveraine et les usages professionnels sans connectivité cloud.

UELes modèles embarqués sans dépendance cloud s'alignent avec les exigences d'IA souveraine portées par l'UE, facilitant des déploiements professionnels conformes au RGPD sans transfert de données vers des serveurs tiers.

LLMsOpinion

1 source

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

51

2Le Big Data

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

💬 C'est le genre de modèle qu'on attendait : multimodal, 16 Go de RAM, dispo sur Ollama maintenant. L'audio natif sans encodeur séparé, c'est la vraie nouveauté technique, et ça change quelque chose pour qui veut traiter de la voix en local sans envoyer ses données quelque part. Reste à voir si les perfs tiennent dans les vrais usages, mais j'ai déjà lancé le pull.

LLMsOpinion

1 source

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

46

3MarkTechPost

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion

1 source

45

4MarkTechPost

Meta Superintelligence Labs lance Muse Spark 1.1, un modèle de raisonnement multimodal pour les tâches à base d'agents sur Meta Model API

Meta Superintelligence Labs a dévoilé Muse Spark 1.1, un modèle de raisonnement multimodal conçu pour les tâches agentiques, et a ouvert en parallèle un aperçu public de la Meta Model API. Ce second élément marque un tournant structurel : jusqu'ici, les modèles de Meta étaient distribués principalement en poids ouverts, alors que Muse Spark 1.1 est fermé, hébergé et facturé au token. Le modèle dispose d'une fenêtre de contexte d'un million de tokens (1 048 576 selon la documentation technique de l'API) et accepte du texte, des images, de la vidéo et des documents en entrée, avec une sortie textuelle. Son effort de raisonnement est ajustable à chaque requête, et l'API propose en complément la sortie structurée, l'appel d'outils en parallèle, une Files API, la mise en cache des prompts et un outil de recherche web renvoyant des réponses sourcées. Côté accès, les particuliers profitent du mode "Thinking" gratuitement dans l'application Meta AI et sur meta.ai, tandis que les développeurs paient 1,25 dollar par million de tokens en entrée et 4,25 dollars par million en sortie, avec 20 dollars de crédits offerts à la création d'un compte. Le lancement reste pour l'instant réservé aux États-Unis, sans disponibilité en Europe. Sur le plan des performances, Meta positionne clairement Muse Spark 1.1 comme un modèle d'orchestration plutôt qu'un champion du code. Il domine les benchmarks liés à l'usage d'outils : 88,1 sur MCP Atlas contre 82,2 pour Opus 4.8, 75,3 pour GPT-5.5 et 78,2 pour Gemini 3.1 Pro, et 54,7 sur JobBench contre 48,4, 38,3 et seulement 15,9 pour Gemini. Il obtient aussi le meilleur score sur Humanity's Last Exam (62,1). En revanche, sur le code pur, il se classe troisième, avec 61,5 sur SWE-Bench Pro et 53,3 sur DeepSWE 1.1, loin derrière Gemini 3.1 Pro sur ce dernier test (67,0). Ce qui distingue vraiment le modèle, c'est sa gestion active de son contexte massif : il mémorise ses actions, retrouve des informations issues de travaux antérieurs et compacte ce qu'il conserve. Il peut aussi déléguer des tâches à des sous-agents en parallèle lorsqu'il agit comme agent principal, et exécuter fidèlement une mission tout en sachant remonter un problème lorsqu'il agit comme sous-agent, avec une capacité de généralisation immédiate à de nouveaux outils, serveurs MCP ou compétences personnalisées. Cette sortie s'inscrit dans une bataille plus large entre grands laboratoires d'IA pour dominer les usages agentiques, où la capacité à orchestrer des outils et des sous-tâches complexes compte désormais autant que la performance brute sur le code. En rendant son API compatible avec le format OpenAI, Meta facilite l'intégration : migrer vers Muse Spark 1.1 revient essentiellement à changer une URL de base plutôt qu'à réécrire une application, et les environnements compatibles avec le format Anthropic peuvent pointer vers l'équivalent Messages API. Pour l'automatisation d'ordinateur, le modèle a été entraîné à choisir entre écrire un script ou cliquer directement selon ce qui est le plus efficace, générant des lots d'actions à chaque étape. L'absence d'accès européen et le choix par Meta de son propre jeu de benchmarks invitent toutefois à la prudence avant d'en tirer des conclusions définitives sur sa supériorité réelle face aux modèles concurrents.

💬 Muse Spark 1.1 n'essaie pas de battre GPT-5.5 ou Gemini sur le code, il joue une autre partie : celle de chef d'orchestre qui délègue à des sous-agents et gère un million de tokens de contexte sans perdre le fil. C'est révélateur d'un vrai basculement dans la course à l'IA, la bataille se déplace du "qui code le mieux" vers "qui orchestre le mieux", et les scores sur MCP Atlas ou JobBench comptent maintenant autant que SWE-Bench. Reste que c'est fermé, payant, réservé aux US, et benchmarké par Meta lui-même, donc j'attends de voir ça tourner ailleurs qu'en démo avant de crier au génie.

LLMsActu

1 source

Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur

À lire aussi

Gemma 4 : intelligence multimodale de pointe sur appareil

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Meta Superintelligence Labs lance Muse Spark 1.1, un modèle de raisonnement multimodal pour les tâches à base d'agents sur Meta Model API