Aller au contenu principal
LLMsAWS ML Blog13sem· 1 min de lecture

Exécutez NVIDIA Nemotron 3 Super sur Amazon Bedrock

Source originale ↗·

NVIDIA vient d'élargir sa famille de modèles ouverts sur Amazon Bedrock avec l'arrivée de Nemotron 3 Super, désormais disponible en mode entièrement géré et serverless. Ce modèle rejoint les Nemotron Nano déjà présents dans l'environnement Bedrock, offrant aux développeurs un accès immédiat à une IA de pointe sans gestion d'infrastructure.

L'intégration sur Amazon Bedrock marque une étape importante pour les entreprises souhaitant déployer des systèmes d'IA agentique complexes. En s'appuyant sur l'inférence managée d'AWS, les équipes peuvent se concentrer sur leurs cas d'usage métier — de la cybersécurité à la finance en passant par le retail — sans se soucier de l'orchestration des serveurs ni de la mise à l'échelle.

Sur le plan technique, Nemotron 3 Super repose sur une architecture hybride Mixture of Experts (MoE) Transformer-Mamba, avec 120 milliards de paramètres totaux dont seulement 12 milliards actifs à l'inférence. Le modèle affiche une efficacité jusqu'à 5x supérieure à la version précédente et une précision 2x plus élevée sur les tâches de raisonnement. Sa fenêtre de contexte atteint 256 000 tokens, et il supporte sept langues dont le français. Deux innovations architecturales clés le distinguent : le Latent MoE, qui mobilise 4x plus d'experts à coût d'inférence constant, et la prédiction multi-token (MTP), qui accélère la génération pour les longues chaînes de raisonnement. Les benchmarks cités incluent AIME 2025, SWE Bench et Terminal-Bench.

Avec des poids, jeux de données et recettes d'entraînement publiés en open source via NVIDIA NeMo, le modèle reste entièrement personnalisable sur infrastructure privée — un argument de poids pour les organisations soumises à des contraintes réglementaires strictes, notamment dans les secteurs financier et de la santé.

Impact France/UE

Le modèle inclut le français parmi ses sept langues supportées, ce qui peut intéresser les développeurs européens, mais l'impact direct sur la France/UE reste limité.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
1AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart
2AWS ML Blog 

NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA vient de rendre disponible son modèle Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart, avec une mise en ligne dite "day zero", soit le jour même du lancement officiel. Ce modèle de langage multimodal open source repose sur une architecture hybride Mamba2 Transformer avec Mixture of Experts (MoE), affichant 30 milliards de paramètres au total dont seulement 3 milliards actifs (architecture dite 30B A3B). Il intègre trois composants spécialisés : Nemotron 3 Nano LLM comme colonne vertébrale linguistique, CRADIO v4-H pour l'encodage visuel (images et vidéos), et Parakeet pour la transcription et la compréhension audio. Le modèle accepte des vidéos jusqu'à 2 minutes (256 images maximum), des fichiers audio jusqu'à 1 heure, des images JPEG et PNG, ainsi que du texte sur une fenêtre de contexte de 131 000 tokens. Il prend en charge le raisonnement en chaîne de pensée, les appels d'outils, la sortie JSON et les horodatages au niveau du mot pour la transcription. Disponible en précision FP8 sur SageMaker JumpStart, il est commercialisé sous la licence NVIDIA Open Model Agreement. L'apport concret de Nemotron 3 Nano Omni réside dans sa capacité à traiter vidéo, audio, images et texte en une seule passe d'inférence, là où les architectures actuelles empilent plusieurs modèles distincts pour chaque modalité. Cette fragmentation classique multiplie les allers-retours d'inférence, complique l'orchestration des pipelines, fragmente le contexte entre modalités et fait croître les coûts et les points de défaillance. En fonctionnant comme un sous-agent de perception unifié au sein d'un système d'agents, le modèle offre simultanément vision, ouïe et compréhension textuelle dans une même boucle de raisonnement. Les cas d'usage ciblés incluent les agents de contrôle d'interfaces graphiques, l'analyse documentaire, contrats, états financiers, rapports scientifiques, ainsi que la surveillance audio et vidéo pour le service client ou la recherche. Ce lancement s'inscrit dans une dynamique plus large de convergence des architectures multimodales, où les grands fournisseurs cherchent à réduire la complexité des systèmes agentiques d'entreprise. NVIDIA, historiquement dominant sur le matériel GPU, renforce ici sa présence sur la couche modèle avec une offre ouverte et commercialement exploitable, accessible directement via SageMaker JumpStart, la plateforme de déploiement géré d'Amazon Web Services. Cette disponibilité immédiate dans l'écosystème AWS facilite l'adoption pour les entreprises sans nécessiter de configuration d'infrastructure propre. La tendance vers des modèles unifiés capables de percevoir et raisonner sur plusieurs modalités simultanément devrait s'accélérer, à mesure que les architectures agentiques complexes cherchent à réduire latence, coûts et friction opérationnelle.

LLMsOpinion
1 source
Les modèles Gemma 4 arrivent sur Amazon Bedrock
3AWS ML Blog 

Les modèles Gemma 4 arrivent sur Amazon Bedrock

Amazon Web Services vient d'annoncer la disponibilité de la famille Gemma 4 sur Amazon Bedrock, le service managé de modèles d'intelligence artificielle du géant du cloud. Développés par Google DeepMind et publiés sous licence Apache 2.0, ces modèles open-weight sont déclinés en trois variantes : Gemma 4 31B, un modèle dense de 30,7 milliards de paramètres ; Gemma 4 26B-A4B, une architecture de type mixture-of-experts (MoE) avec seulement 3,8 milliards de paramètres actifs par requête sur 25,2 milliards au total ; et Gemma 4 E2B, un modèle compact de 2,3 milliards de paramètres effectifs. Tous supportent une fenêtre de contexte de 256 000 tokens (128 000 pour le modèle compact), un mode de raisonnement intégré, l'appel natif de fonctions pour les workflows agentiques, et des entrées multimodales combinant texte et image. Selon Artificial Analysis, le modèle Gemma 4 31B affiche un Intelligence Index de 39, soit bien au-dessus de la médiane de 15 pour la catégorie des modèles open-weight entre 4 et 40 milliards de paramètres. L'intégration de Gemma 4 dans Bedrock répond à une tension bien connue des entreprises adoptant des modèles open-weight en production : accéder aux meilleurs modèles disponibles tout en maintenant un contrôle total sur leurs données, leur conformité réglementaire et leur infrastructure. Disponibles via trois niveaux de service (Standard, Priority et Flex), ces modèles s'exécutent entièrement sur l'infrastructure AWS, sans que les prompts ou les réponses ne soient utilisés pour entraîner d'autres modèles ni partagés avec des tiers. Les équipes peuvent ainsi construire des agents multimodaux, des pipelines de traitement documentaire ou des assistants au développement logiciel, avec une prise en charge native de plus de 35 langues et un pré-entraînement sur plus de 140 langues. Cette annonce s'inscrit dans la compétition croissante entre les fournisseurs cloud pour proposer les meilleurs modèles open-weight sur leurs plateformes managées, en rivalité directe avec Microsoft Azure et Google Cloud. Google DeepMind continue de déployer la gamme Gemma comme levier stratégique pour étendre son influence dans l'écosystème IA sans passer uniquement par son propre cloud. Pour AWS, distribuer Gemma 4 sur Bedrock renforce son catalogue de modèles fondateurs sans investissement en R&D propre, tout en captant les entreprises qui préfèrent la flexibilité open-weight à des modèles propriétaires comme Claude ou Titan. La nature open-weight de la famille Gemma permet en outre aux organisations d'auditer l'architecture, de benchmarker sur leurs propres données et de fine-tuner les modèles selon leurs besoins, une capacité que les modèles fermés n'offrent pas.

UELes entreprises européennes sur AWS peuvent désormais déployer Gemma 4 avec des garanties de conformité RGPD, les prompts n'étant ni utilisés pour l'entraînement ni partagés avec des tiers.

LLMsOpinion
1 source
NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique
4MarkTechPost 

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique

NVIDIA lance Nemotron 3 Super, un modèle open-source de 120 milliards de paramètres combinant architecture hybride Mamba-Attention et Mixture of Experts (MoE), conçu spécifiquement pour les applications multi-agents complexes. Il offre jusqu'à 7x plus de débit et une précision doublée par rapport à la génération précédente, grâce à cinq innovations clés dont la prédiction multi-tokens, une fenêtre de contexte d'un million de tokens et l'intégration de NeMo RL Gym. Ce modèle se positionne entre le Nemotron 3 Nano (30B paramètres) et l'Ultra (500B), attendu plus tard en 2026.

LLMsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic