
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement.
Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité.
Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.
Le traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




