Aller au contenu principal
LLMsAWS ML Blog8h· 2 min de lecture

Les modèles Gemma 4 arrivent sur Amazon Bedrock

Source originale ↗·

Amazon Web Services vient d'annoncer la disponibilité de la famille Gemma 4 sur Amazon Bedrock, le service managé de modèles d'intelligence artificielle du géant du cloud. Développés par Google DeepMind et publiés sous licence Apache 2.0, ces modèles open-weight sont déclinés en trois variantes : Gemma 4 31B, un modèle dense de 30,7 milliards de paramètres ; Gemma 4 26B-A4B, une architecture de type mixture-of-experts (MoE) avec seulement 3,8 milliards de paramètres actifs par requête sur 25,2 milliards au total ; et Gemma 4 E2B, un modèle compact de 2,3 milliards de paramètres effectifs. Tous supportent une fenêtre de contexte de 256 000 tokens (128 000 pour le modèle compact), un mode de raisonnement intégré, l'appel natif de fonctions pour les workflows agentiques, et des entrées multimodales combinant texte et image. Selon Artificial Analysis, le modèle Gemma 4 31B affiche un Intelligence Index de 39, soit bien au-dessus de la médiane de 15 pour la catégorie des modèles open-weight entre 4 et 40 milliards de paramètres.

L'intégration de Gemma 4 dans Bedrock répond à une tension bien connue des entreprises adoptant des modèles open-weight en production : accéder aux meilleurs modèles disponibles tout en maintenant un contrôle total sur leurs données, leur conformité réglementaire et leur infrastructure. Disponibles via trois niveaux de service (Standard, Priority et Flex), ces modèles s'exécutent entièrement sur l'infrastructure AWS, sans que les prompts ou les réponses ne soient utilisés pour entraîner d'autres modèles ni partagés avec des tiers. Les équipes peuvent ainsi construire des agents multimodaux, des pipelines de traitement documentaire ou des assistants au développement logiciel, avec une prise en charge native de plus de 35 langues et un pré-entraînement sur plus de 140 langues.

Cette annonce s'inscrit dans la compétition croissante entre les fournisseurs cloud pour proposer les meilleurs modèles open-weight sur leurs plateformes managées, en rivalité directe avec Microsoft Azure et Google Cloud. Google DeepMind continue de déployer la gamme Gemma comme levier stratégique pour étendre son influence dans l'écosystème IA sans passer uniquement par son propre cloud. Pour AWS, distribuer Gemma 4 sur Bedrock renforce son catalogue de modèles fondateurs sans investissement en R&D propre, tout en captant les entreprises qui préfèrent la flexibilité open-weight à des modèles propriétaires comme Claude ou Titan. La nature open-weight de la famille Gemma permet en outre aux organisations d'auditer l'architecture, de benchmarker sur leurs propres données et de fine-tuner les modèles selon leurs besoins, une capacité que les modèles fermés n'offrent pas.

Impact France/UE

Les entreprises européennes sur AWS peuvent désormais déployer Gemma 4 avec des garanties de conformité RGPD, les prompts n'étant ni utilisés pour l'entraînement ni partagés avec des tiers.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
1AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3
2Latent Space 

Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3

Google DeepMind a lancé Gemma 4 les 1er et 2 avril 2026, une nouvelle famille de modèles open-weight qui marque le bond le plus significatif de la série depuis un an. Quatre variantes sont disponibles : un modèle dense de 31 milliards de paramètres, un modèle MoE de 26 milliards (avec seulement 4 milliards de paramètres actifs, baptisé 26B-A4B), et deux modèles compacts orientés mobile et IoT, l'E4B et l'E2B, dotés de capacités multimodales natives incluant texte, vision et audio. Tous sont publiés sous licence Apache 2.0, un changement majeur par rapport aux licences plus restrictives des versions précédentes. Les grands modèles supportent une fenêtre de contexte allant jusqu'à 256 000 tokens, avec des capacités de function calling et de génération JSON structurée. Sur les benchmarks, le 31B se classe troisième parmi tous les modèles open-source selon l'Arena Leaderboard, et premier parmi les modèles américains ouverts, affichant un score de 85,7 % sur GPQA Diamond en mode raisonnement, à égalité avec des modèles bien plus massifs comme Kimi K2.5 (744 milliards de paramètres) ou GLM-5 de Z.ai (1 000 milliards de paramètres). Ces résultats sont importants pour l'ensemble de l'écosystème open-source car ils démontrent qu'un modèle de 31 milliards de paramètres peut rivaliser avec des architectures vingt fois plus grandes, rendant le déploiement local économiquement viable pour des entreprises de toutes tailles. Le support day-0 a été assuré simultanément par llama.cpp, Ollama, vLLM, LM Studio et Transformers, ce qui signifie que les développeurs ont pu télécharger et exécuter Gemma 4 dès le jour du lancement sur GPU consumer ou Mac Apple Silicon. Des benchmarks concrets rapportent 300 tokens par seconde en temps réel sur un M2 Ultra avec la variante 26B-A4B en quantification Q8_0. La licence Apache 2.0 autorise l'usage commercial sans restriction, ce qui lève un frein important à l'adoption en entreprise. Ce lancement intervient dans un contexte de fragilisation du leadership américain en matière de modèles ouverts : l'Allen Institute for AI traverse des turbulences internes, et le projet de modèle open-source d'OpenAI reste dans un statut incertain. Google DeepMind comble ainsi partiellement ce vide, capitalisant sur la traction de Gemma 3 qui a enregistré 400 millions de téléchargements et généré plus de 100 000 variantes communautaires. Les capacités audio et vision des modèles edge alimentent également des spéculations sur un rôle possible de Gemma 4 dans le cadre du partenariat Apple-Google pour le futur Siri sur appareil. Les prochaines semaines diront si cet avantage technique se traduit en adoption massive, notamment face à des concurrents comme Mistral ou les modèles Qwen d'Alibaba.

UELa licence Apache 2.0 sans restriction commerciale et les performances de Gemma 4 sur matériel grand public accentuent la pression concurrentielle sur Mistral et les acteurs européens du déploiement de modèles ouverts.

💬 Le 31B qui tient tête à des architectures de 700 milliards de paramètres, bon, sur les benchmarks ça impressionne vraiment. Mais ce qui change tout, c'est la licence Apache 2.0 sans condition commerciale, parce que c'était ça le vrai frein à l'adoption en entreprise. 300 tokens par seconde sur M2 Ultra avec la variante MoE, t'as plus besoin de louer du GPU pour faire tourner quelque chose de sérieux.

LLMsOpinion
1 source
Google lance la famille de modèles ouverts Gemma 4
3AI Business 

Google lance la famille de modèles ouverts Gemma 4

Google a lancé Gemma 4, une nouvelle famille de modèles d'IA open source conçue pour le raisonnement avancé et les capacités multimodales. Héritière de la série Gemma, cette offre s'inscrit dans la stratégie de Google DeepMind de proposer des modèles accessibles aux développeurs et chercheurs, utilisables localement ou dans le cloud. La famille comprend plusieurs variantes de tailles différentes, adaptées à des usages allant des appareils mobiles aux serveurs de production. L'arrivée de Gemma 4 renforce l'arsenal open source disponible pour les équipes techniques qui ne veulent pas dépendre exclusivement de modèles propriétaires via API. Les capacités multimodales — traitement combiné de texte et d'images — ouvrent la voie à des applications concrètes dans l'analyse documentaire, la vision par ordinateur et les assistants enrichis. Pour les entreprises soucieuses de confidentialité ou de coûts d'inférence, un modèle performant déployable en local représente un avantage opérationnel direct. Google s'inscrit ainsi dans une compétition ouverte avec Meta (LLaMA), Mistral et d'autres acteurs qui misent sur l'open source pour gagner l'adhésion des développeurs. La série Gemma, lancée début 2024, avait déjà rencontré un accueil favorable grâce à ses performances compétitives à taille réduite. Avec Gemma 4, Google cherche à consolider sa position dans cet écosystème, alors que le débat entre modèles ouverts et fermés reste central dans l'industrie de l'IA.

UELes équipes techniques et entreprises européennes disposent d'une nouvelle famille open source déployable en local, réduisant la dépendance aux APIs propriétaires et facilitant la conformité RGPD.

LLMsOpinion
1 source
Google annonce Gemma 4, ses modèles IA open source sous licence Apache 2.0
4Ars Technica AI 

Google annonce Gemma 4, ses modèles IA open source sous licence Apache 2.0

Google a lancé ce mercredi Gemma 4, sa nouvelle génération de modèles d'IA open-weight, disponible en quatre tailles optimisées pour un usage local. La gamme comprend notamment un modèle 26 milliards de paramètres en architecture Mixture of Experts (MoE) et un modèle dense de 31 milliards de paramètres, tous deux conçus pour tourner non quantifiés en format bfloat16 sur un seul GPU NVIDIA H100 de 80 Go. Quantifiés en précision réduite, ces modèles peuvent également fonctionner sur des cartes graphiques grand public. Autre changement majeur : Google abandonne sa licence propriétaire Gemma au profit de la licence Apache 2.0, bien plus permissive et largement adoptée dans l'écosystème open source. Ce passage à l'Apache 2.0 répond directement aux frustrations exprimées par les développeurs, qui se heurtaient jusqu'ici à des restrictions d'usage limitant l'intégration de Gemma dans des projets commerciaux ou open source. La licence Apache 2.0 supprime ces barrières et aligne Gemma sur les standards attendus pour des modèles véritablement ouverts. Sur le plan technique, le modèle 26B MoE n'active que 3,8 milliards de ses 26 milliards de paramètres en inférence, ce qui lui confère un débit en tokens par seconde nettement supérieur aux modèles de taille équivalente, réduisant ainsi la latence sur du matériel local. Le 31B Dense, lui, privilégie la qualité et est pensé pour être affiné sur des cas d'usage spécifiques. Gemma 3 avait été lancé il y a plus d'un an, et cette nouvelle version s'inscrit dans une dynamique de concurrence intense autour des modèles ouverts, où Meta (avec Llama), Mistral AI et d'autres acteurs se disputent l'adoption des développeurs. Google dispose d'un avantage structurel avec ses propres accélérateurs TPU et son infrastructure cloud, mais cherche également à s'imposer sur les machines locales, un segment en forte croissance depuis l'essor des inférences embarquées. Avec Gemma 4, l'entreprise tente de réconcilier puissance et accessibilité, tout en reprenant la main sur un écosystème open source qu'elle avait jusqu'ici abordé avec prudence.

UELes développeurs européens peuvent désormais intégrer Gemma 4 dans des projets commerciaux et open source sans restriction grâce au passage à la licence Apache 2.0.

💬 Le passage à Apache 2.0, c'est la vraie nouvelle ici, pas les 26B de paramètres. La licence Gemma d'avant rendait le modèle quasi inutilisable pour quoi que ce soit de sérieux, et Google le savait depuis des mois. Reste à voir si le 26B MoE tient ses promesses en local, mais sur le papier, activer 3,8B de paramètres pour le débit d'un petit modèle avec la qualité d'un grand, c'est exactement le genre de compromis qu'on attendait.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic