Aller au contenu principal
Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
LLMsMarkTechPost2h

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth.

Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image.

Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

Impact France/UE

Ce modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public
1Le Big Data 

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

LLMsOpinion
1 source
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
2VentureBeat AI 

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement. Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité. Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

UELe traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

LLMsActu
1 source
Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
3Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

LLMsActu
1 source
Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA
4MarkTechPost 

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

Google a lancé Gemini 3.1 Flash Live en préversion pour les développeurs via la Gemini Live API dans Google AI Studio. Ce nouveau modèle se positionne comme le « modèle audio et vocal de la plus haute qualité » jamais produit par Google, capable de traiter en temps réel des flux multimodaux combinant voix, vidéo et appels d'outils. Concrètement, il accepte de l'audio PCM 16 bits à 16 kHz, renvoie de l'audio PCM natif sans passer par une synthèse vocale séparée, et peut ingérer des flux vidéo à environ une image par seconde. Sur le benchmark ComplexFuncBench Audio, qui mesure la capacité à enchaîner des appels de fonctions complexes à partir de la seule voix, le modèle atteint un score de 90,8 %. Il obtient également 36,1 % sur l'Audio MultiChallenge, un test mesurant la résistance aux interruptions et aux environnements bruités, thème central pour les cas d'usage réels. Ce lancement s'attaque à un problème structurel qui plombait jusque-là les assistants vocaux : la « pile d'attente », enchaînement séquentiel de la détection d'activité vocale, de la transcription, de la génération de texte et de la synthèse vocale. Gemini 3.1 Flash Live court-circuite cette chaîne en traitant l'acoustique directement, sans transcrire au préalable. Le modèle gère mieux la prosodie — ton, débit, hésitations — que son prédécesseur Gemini 2.5 Flash Native Audio, et discrimine la parole pertinente des bruits ambiants comme la circulation ou le brouhaha d'un bureau. L'interface de programmation repose sur un protocole WebSocket bidirectionnel et persistant, permettant la continuité de session, la synchronisation audio-transcription en un seul événement serveur, et le « barge-in » : l'utilisateur peut couper la parole à l'IA en plein milieu d'une phrase, et le modèle interrompt immédiatement sa génération pour traiter le nouvel énoncé. Une fenêtre de contexte de 128 000 tokens supporte la mémoire de session et les définitions d'outils. Ce modèle arrive dans un contexte de compétition intense entre Google, OpenAI et les startups spécialisées dans la voix temps réel. OpenAI avait ouvert la voie avec son mode vocal avancé dans GPT-4o, mais la fiabilité en environnements dégradés restait un talon d'Achille pour l'ensemble de l'industrie. Google mise ici sur la robustesse au bruit et sur l'inférence agentique — la capacité à raisonner et à exécuter des tâches complexes (retrouver des factures, envoyer des e-mails sous conditions) sans passer par un intermédiaire textuel. Pour les développeurs qui construisent des agents d'assistance client, des interfaces mobiles ou des outils professionnels à commande vocale, cette combinaison de faible latence, de multimodalité native et de raisonnement structuré représente un changement de catégorie. Les prochaines étapes attendues concernent la sortie en disponibilité générale et l'intégration dans l'écosystème Vertex AI pour les entreprises.

UELes développeurs européens peuvent accéder dès maintenant à l'API en préversion via Google AI Studio pour construire des agents vocaux, sans impact réglementaire ou institutionnel spécifique à la France/UE.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour