LLMsAWS ML Blog · 15 juin 2026, 23:24· 2 min de lecture

Les modèles Gemma 4 arrivent sur Amazon Bedrock

Amazon Web Services vient d'annoncer la disponibilité de la famille Gemma 4 sur Amazon Bedrock, le service managé de modèles d'intelligence artificielle du géant du cloud. Développés par Google DeepMind et publiés sous licence Apache 2.0, ces modèles open-weight sont déclinés en trois variantes : Gemma 4 31B, un modèle dense de 30,7 milliards de paramètres ; Gemma 4 26B-A4B, une architecture de type mixture-of-experts (MoE) avec seulement 3,8 milliards de paramètres actifs par requête sur 25,2 milliards au total ; et Gemma 4 E2B, un modèle compact de 2,3 milliards de paramètres effectifs. Tous supportent une fenêtre de contexte de 256 000 tokens (128 000 pour le modèle compact), un mode de raisonnement intégré, l'appel natif de fonctions pour les workflows agentiques, et des entrées multimodales combinant texte et image. Selon Artificial Analysis, le modèle Gemma 4 31B affiche un Intelligence Index de 39, soit bien au-dessus de la médiane de 15 pour la catégorie des modèles open-weight entre 4 et 40 milliards de paramètres.

L'intégration de Gemma 4 dans Bedrock répond à une tension bien connue des entreprises adoptant des modèles open-weight en production : accéder aux meilleurs modèles disponibles tout en maintenant un contrôle total sur leurs données, leur conformité réglementaire et leur infrastructure. Disponibles via trois niveaux de service (Standard, Priority et Flex), ces modèles s'exécutent entièrement sur l'infrastructure AWS, sans que les prompts ou les réponses ne soient utilisés pour entraîner d'autres modèles ni partagés avec des tiers. Les équipes peuvent ainsi construire des agents multimodaux, des pipelines de traitement documentaire ou des assistants au développement logiciel, avec une prise en charge native de plus de 35 langues et un pré-entraînement sur plus de 140 langues.

Cette annonce s'inscrit dans la compétition croissante entre les fournisseurs cloud pour proposer les meilleurs modèles open-weight sur leurs plateformes managées, en rivalité directe avec Microsoft Azure et Google Cloud. Google DeepMind continue de déployer la gamme Gemma comme levier stratégique pour étendre son influence dans l'écosystème IA sans passer uniquement par son propre cloud. Pour AWS, distribuer Gemma 4 sur Bedrock renforce son catalogue de modèles fondateurs sans investissement en R&D propre, tout en captant les entreprises qui préfèrent la flexibilité open-weight à des modèles propriétaires comme Claude ou Titan. La nature open-weight de la famille Gemma permet en outre aux organisations d'auditer l'architecture, de benchmarker sur leurs propres données et de fine-tuner les modèles selon leurs besoins, une capacité que les modèles fermés n'offrent pas.

Impact France/UE

Les entreprises européennes sur AWS peuvent désormais déployer Gemma 4 avec des garanties de conformité RGPD, les prompts n'étant ni utilisés pour l'entraînement ni partagés avec des tiers.

Dans nos dossiers

AWS Open weight & Open source Google DeepMind Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Grok arrive sur Amazon Bedrock

xAI a annoncé la disponibilité générale de son modèle Grok 4.3 sur Amazon Bedrock, une intégration coécrite avec Eric Jiang, responsable chez xAI (filiale de SpaceX). xAI devient ainsi fournisseur de modèles sur la plateforme Bedrock d'Amazon. Grok 4.3 se distingue par un niveau d'effort de raisonnement configurable, quatre paliers disponibles (aucun, faible, moyen, élevé) que les développeurs peuvent ajuster selon chaque requête. Le modèle accepte du texte et des images en entrée, dispose d'une fenêtre de contexte d'un million de tokens et tourne sur Mantle, le nouveau moteur d'inférence d'Amazon Bedrock qui utilise des API compatibles OpenAI plutôt que l'API Runtime classique de Bedrock. Selon les benchmarks internes publiés par xAI au moment du lancement, Grok 4.3 s'est classé numéro un sur le test Omniscience d'Artificial Analysis, avec le taux d'hallucination le plus bas parmi les modèles de pointe comparés. Il occupe également la première place du benchmark Tau2 Telecom d'Artificial Analysis, qui évalue l'appel d'outils dans des scénarios de support client, ainsi que des tests Vals AI portant sur le droit jurisprudentiel et la finance d'entreprise. xAI affirme que le modèle se situe sur la frontière de Pareto entre intelligence et coût, avec un rapport allant jusqu'à dix fois plus d'intelligence par dollar dépensé que d'autres modèles concurrents. Cette annonce compte pour les équipes qui développent des agents et des flux de travail automatisés en entreprise, car elle leur offre un modèle unique capable de couvrir tout un éventail de tâches sans changer d'outil. Une simple classification peut tourner avec un effort de raisonnement nul pour minimiser la latence, tandis qu'une analyse de contrat ou de jurisprudence peut mobiliser le niveau élevé lorsque la profondeur d'analyse prime sur la vitesse de réponse. Cette flexibilité, combinée à la gestion fiable des appels d'outils et au respect des instructions, rend le modèle particulièrement adapté à des usages comme la révision de contrats, l'analyse de conventions de crédit ou les questions-réponses sur des documents financiers volumineux, des tâches où le modèle doit à la fois raisonner sur de longs textes et interagir avec des systèmes externes. Cette intégration s'inscrit dans la stratégie d'Amazon Web Services visant à diversifier les modèles disponibles sur Bedrock au-delà de ses partenaires historiques, en ouvrant la porte à des fournisseurs tiers comme xAI. Pour les développeurs, l'accès à Grok 4.3 passe par le SDK OpenAI ou des requêtes HTTPS directes vers l'API Chat Completions ou l'API Responses, via une URL propre à chaque région AWS, par exemple https://bedrock-mantle.us-west-2.api.aws/openai/v1 pour la région us-west-2. Les paramètres par défaut diffèrent aussi légèrement de la norme OpenAI : la température est fixée à 0,7 au lieu de 1, le top_p à 0,95 au lieu de 1, et le nombre maximal de tokens de complétion à 131 072 par défaut, des réglages que les équipes doivent ajuster explicitement si leur application l'exige.

UELes développeurs et entreprises françaises utilisant AWS pourront accéder à Grok 4.3 via les régions européennes de Bedrock, mais aucune entreprise ou régulation française/européenne n'est directement impliquée.

LLMsActu

1 source

2AWS ML Blog

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil

1 source

3AWS ML Blog

Exécutez NVIDIA Nemotron 3 Super sur Amazon Bedrock

NVIDIA vient d'élargir sa famille de modèles ouverts sur Amazon Bedrock avec l'arrivée de Nemotron 3 Super, désormais disponible en mode entièrement géré et serverless. Ce modèle rejoint les Nemotron Nano déjà présents dans l'environnement Bedrock, offrant aux développeurs un accès immédiat à une IA de pointe sans gestion d'infrastructure. L'intégration sur Amazon Bedrock marque une étape importante pour les entreprises souhaitant déployer des systèmes d'IA agentique complexes. En s'appuyant sur l'inférence managée d'AWS, les équipes peuvent se concentrer sur leurs cas d'usage métier, de la cybersécurité à la finance en passant par le retail, sans se soucier de l'orchestration des serveurs ni de la mise à l'échelle. Sur le plan technique, Nemotron 3 Super repose sur une architecture hybride Mixture of Experts (MoE) Transformer-Mamba, avec 120 milliards de paramètres totaux dont seulement 12 milliards actifs à l'inférence. Le modèle affiche une efficacité jusqu'à 5x supérieure à la version précédente et une précision 2x plus élevée sur les tâches de raisonnement. Sa fenêtre de contexte atteint 256 000 tokens, et il supporte sept langues dont le français. Deux innovations architecturales clés le distinguent : le Latent MoE, qui mobilise 4x plus d'experts à coût d'inférence constant, et la prédiction multi-token (MTP), qui accélère la génération pour les longues chaînes de raisonnement. Les benchmarks cités incluent AIME 2025, SWE Bench et Terminal-Bench. Avec des poids, jeux de données et recettes d'entraînement publiés en open source via NVIDIA NeMo, le modèle reste entièrement personnalisable sur infrastructure privée, un argument de poids pour les organisations soumises à des contraintes réglementaires strictes, notamment dans les secteurs financier et de la santé.

UELe modèle inclut le français parmi ses sept langues supportées, ce qui peut intéresser les développeurs européens, mais l'impact direct sur la France/UE reste limité.

LLMsActu

1 source

4AWS ML Blog

Introduction de la mise en cache explicite des prompts pour les modèles GPT-5.6 d'OpenAI sur Amazon Bedrock

OpenAI et Amazon Web Services ont annoncé la disponibilité générale de trois nouveaux modèles sur Amazon Bedrock : GPT-5.6 Sol, Terra et Luna. Coécrite avec Chris Dickens, ingénieur chez OpenAI, cette annonce introduit une famille segmentée en trois niveaux de capacité : Sol, taillé pour le raisonnement complexe et le codage agentique, Terra, pensé pour les charges de production quotidiennes équilibrées, et Luna, optimisé pour les tâches rapides à haut volume comme la classification ou le résumé de texte. Les trois modèles sont accessibles via une tarification au jeton, avec les contrôles de sécurité et de gouvernance d'AWS, et leur usage compte dans les engagements de consommation AWS déjà souscrits par les entreprises. Sol est disponible dans les régions US East (Virginie du Nord) et US East (Ohio), tandis que Terra et Luna s'étendent également à US West (Oregon). L'accès se fait via l'API Responses compatible OpenAI, sur le point de terminaison bedrock-mantle, avec une authentification par jetons temporaires générés à partir des identifiants AWS classiques, évitant ainsi de stocker des secrets à long terme dans le code. La nouveauté la plus significative de cette mise à jour est l'introduction du cache de prompt explicite, une fonctionnalité qui donne aux développeurs un contrôle précis sur les portions de leurs requêtes mises en cache et réutilisées d'un appel à l'autre. Le contenu mis en cache bénéficie d'une remise de 90 % sur la facturation et reste disponible pendant 30 minutes après sa création. Cette mécanique profite en particulier aux flux de travail agentiques, où les instructions système, les définitions d'outils et les documents de référence se répètent à l'identique sur de très nombreux appels successifs. Pour les entreprises qui opèrent des agents IA à grande échelle, cela représente une réduction directe et mesurable des coûts d'inférence, sans changement d'architecture applicative. Ce lancement s'inscrit dans une stratégie plus large d'OpenAI visant à multiplier les canaux de distribution de ses modèles au-delà de sa propre API, en s'appuyant sur l'infrastructure cloud existante des entreprises. GPT-5.6 introduit aussi des niveaux de raisonnement ajustables, allant de none à xhigh, avec un réglage par défaut à medium : les niveaux plus élevés allouent davantage de ressources de raisonnement aux problèmes complexes, tandis que none privilégie la latence la plus faible pour les tâches simples. Pour les équipes migrant depuis GPT-5.5 ou GPT-5.4, OpenAI recommande de conserver dans un premier temps le niveau d'effort habituel, puis de tester un cran en dessous, GPT-5.6 étant plus efficient en jetons et capable de maintenir la qualité à un effort réduit sur de nombreuses charges de travail. Les paramètres d'échantillonnage classiques, température et top_p, ne restent réglables que lorsque l'effort de raisonnement est fixé à none.

💬 Sur le papier, c'est de la plomberie, mais c'est le genre de plomberie qui compte vraiment quand tu fais tourner des agents à grande échelle. Une remise de 90% sur les tokens répétés (instructions système, définitions d'outils), ça change le calcul économique de tout workflow agentique qui appelle le même contexte des centaines de fois par heure. Et le vrai signal, c'est qu'OpenAI arrête de miser uniquement sur sa propre API : distribuer ses modèles via l'infra AWS des entreprises, c'est admettre que le canal de vente compte autant que le modèle lui-même.

LLMsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic