Aller au contenu principal
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
LLMsVentureBeat AI2h

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Résumé IASource uniqueImpact UE
Source originale ↗·

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement.

Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité.

Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

Impact France/UE

Le traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
1Next INpact 

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

Google a lancé Gemma 4, sa nouvelle famille de modèles d'intelligence artificielle en open source, quelques jours avant le week-end de Pâques 2026. La gamme comprend quatre variantes baptisées E2B, E4B, 26B A4B et 31B, offrant respectivement 2,3, 4,5, 25,2 et 30,7 milliards de paramètres. Le modèle 26B A4B adopte une architecture Mixture of Experts (MoE), ce qui signifie que seuls 3,8 milliards de paramètres sont effectivement activés lors de chaque inférence, réduisant considérablement la puissance de calcul nécessaire. Tous les modèles sont multimodaux : ils traitent du texte et des images, les deux plus petits ajoutant la reconnaissance vocale. Les fenêtres de contexte atteignent 128 000 tokens pour les modèles E2B et E4B, et 256 000 tokens pour les deux plus grands. L'ensemble de la famille intègre un mode de raisonnement pas-à-pas, une prise en charge native des outils pour les workflows d'agents, ainsi que des capacités de génération et correction de code. La licence retenue est Apache 2.0, considérée comme l'une des plus permissives : elle autorise la modification, la distribution et l'usage commercial sans contrainte majeure, à condition de conserver les mentions de copyright. Ce changement de licence est la décision la plus significative de cette annonce. Jusqu'ici, Google publiait ses modèles Gemma sous une licence maison, les "Gemma Terms of Use", qui lui permettait de restreindre l'utilisation à sa discrétion. En passant à Apache 2.0, Google offre aux développeurs, entreprises et chercheurs une garantie juridique bien plus solide pour intégrer ces modèles dans des produits commerciaux ou des recherches sensibles. La diversité des tailles proposées, notamment les variantes à 2,3 et 4,5 milliards de paramètres, permet de faire tourner Gemma 4 directement sur des ordinateurs personnels ou des smartphones, sans envoyer de données vers des serveurs tiers. Pour les entreprises soucieuses de confidentialité ou les développeurs indépendants aux ressources limitées, c'est un argument concret et immédiat. Avec cette décision, Google rejoint un camp qui compte déjà Mistral avec son modèle 7B publié en septembre 2023, OpenAI avec gpt-oss-120b et Alibaba avec sa famille Qwen, tous distribués sous Apache 2.0. Meta reste en retrait avec ses modèles LLaMA, soumis à une licence plus restrictive. Le contexte concurrentiel est intense : le marché des modèles ouverts s'est considérablement animé ces dix-huit derniers mois, et Google cherche à s'y positionner comme un acteur sérieux face à des alternatives bien établies. L'annonce intervient également au moment où Anthropic durcit ses conditions d'accès pour les applications tierces sur ses modèles payants, un contraste saisissant qui renforce l'attrait de l'approche ouverte de Google. Les suites dépendront de l'adoption par la communauté et des benchmarks indépendants, mais la combinaison licence permissive et gamme de tailles variées donne à Gemma 4 de sérieux atouts pour s'imposer dans l'écosystème open source.

UELa licence Apache 2.0 et les variantes légères (2-4 milliards de paramètres) permettent aux entreprises et développeurs européens d'intégrer Gemma 4 dans des produits commerciaux ou de le déployer en local, un atout concret pour la conformité RGPD.

💬 La vraie nouvelle, c'est pas les 31 milliards de paramètres, c'est Apache 2.0. Google arrête de jouer avec ses licences maison qui laissaient planer un doute juridique permanent sur l'usage commercial, et ça change tout pour les boîtes qui hésitaient à s'engager. Le petit E2B à 2,3 milliards avec 128k de contexte qui tourne en local, bon, sur le papier c'est exactement ce qu'on attendait pour des usages RGPD-friendly. Reste à voir ce que les benchmarks indépendants vont donner, parce que Google sait aussi soigner ses annonces de Pâques.

LLMsOpinion
1 source
Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac
2Frandroid 

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac

Google a dévoilé le Gemma 4 12B, le plus récent modèle de sa famille Gemma 4, conçu pour fonctionner directement sur un ordinateur personnel sans passer par le cloud ni souscrire à un abonnement payant. Avec ses 12 milliards de paramètres, il représente le point d'équilibre idéal de la gamme pour un usage sur laptop : assez puissant pour des tâches complexes, assez léger pour tourner sur du matériel grand public. Son installation passe notamment par des outils comme Ollama ou LM Studio, qui permettent de télécharger et d'exécuter le modèle localement en quelques commandes. L'intérêt principal du Gemma 4 12B réside dans la confidentialité et l'autonomie qu'il offre : aucune donnée ne quitte la machine, aucun abonnement mensuel n'est requis, et le modèle reste disponible même hors connexion. Pour les développeurs, chercheurs ou professionnels manipulant des données sensibles, c'est une alternative crédible aux API cloud d'OpenAI ou Anthropic. La famille Gemma 4 intègre également des capacités multimodales, permettant de traiter texte et images au sein d'un même modèle. Cette sortie s'inscrit dans la stratégie open source de Google, qui fait face à une concurrence directe de Meta et de ses modèles Llama, largement adoptés par la communauté. En proposant des modèles librement redistribuables et optimisés pour le matériel grand public, Google cherche à gagner en influence auprès des développeurs indépendants et des entreprises qui préfèrent garder le contrôle de leur infrastructure IA. La course aux modèles locaux performants ne fait que commencer.

UELes développeurs et entreprises européennes soucieux du RGPD peuvent déployer Gemma 4 12B entièrement en local, sans transfert de données vers l'étranger, renforçant la souveraineté numérique.

LLMsTuto
1 source
Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
3MarkTechPost 

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
4MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour