Aller au contenu principal
LLMsAWS ML Blog5j

Exécutez NVIDIA Nemotron 3 Super sur Amazon Bedrock

1 source couvre ce sujet·Source originale ↗·
Résumé IA

NVIDIA Nemotron 3 Super est désormais disponible sur Amazon Bedrock en tant que modèle entièrement géré et serverless. Ce modèle hybride Mixture of Experts (MoE) de 120 milliards de paramètres (12B actifs) offre jusqu'à 5x plus d'efficacité de calcul et 2x plus de précision que sa version précédente, avec un contexte allant jusqu'à 256K tokens. Conçu pour les applications multi-agents et les systèmes IA agentiques, il excelle sur des benchmarks clés comme AIME 2025, SWE Bench et RULER, tout en supportant sept langues dont le français.

Impact France/UE

Le modèle inclut le français parmi ses sept langues supportées, ce qui peut intéresser les développeurs européens, mais l'impact direct sur la France/UE reste limité.

Nemotron 3 Super is now available as a fully managed and serverless model on Amazon Bedrock , joining the Nemotron Nano models that are already available within the Amazon Bedrock environment . With NVIDIA Nemotron open models on Amazon Bedrock, you can accelerate innovation and deliver tangible business value without managing infrastructure complexities. You can power your generative AI applications with Nemotron through the fully managed inference of Amazon Bedrock, using its extensive features and tooling. This post explores the technical characteristics of the Nemotron 3 Super model and discusses potential application use cases. It also provides technical guidance to get started using this model for your generative AI applications within the Amazon Bedrock environment. About Nemotron 3 Super Nemotron 3 Super is a hybrid Mixture of Experts (MoE) model with leading compute efficiency and accuracy for multi-agent applications and for specialized agentic AI systems. The model is released with open weights, datasets, and recipes so developers can customize, improve, and deploy the model on their infrastructure for enhanced privacy and security. Model overview: Architecture: MoE with Hybrid Transformer-Mamba architecture. Supports token budget for providing improved accuracy with minimum reasoning token generation. Accuracy: Highest throughput efficiency in its size category and up to 5x over the previous Nemotron Super model. Leading accuracy for reasoning and agentic tasks among leading open models and up to 2x higher accuracy over the previous version. Achieves high accuracy across leading benchmarks, including AIME 2025, Terminal-Bench, SWE Bench verified and multilingual, RULER. Multi-environment RL training gave the model leading accuracy across 10+ environments with NVIDIA NeMo . Model size: 120 B with 12 B active parameters Context length: up to 256K tokens Model input: Text Model output: Text Languages: English, French, German, Italian, Japanese, Spanish, and Chinese Latent MoE Nemotron 3 Super uses latent MoE, where experts operate on a shared latent representation before outputs are projected back to token space. This approach allows the model to call on 4x more experts at the same inference cost, enabling better specialization around subtle semantic structures, domain abstractions, or multi-hop reasoning patterns. Multi-token prediction (MTP) MTP enables the model to predict several future tokens in a single forward pass, significantly increasing throughput for long reasoning sequences and structured outputs. For planning, trajectory generation, extended chain-of-thought , or code generation, MTP reduces latency and improves agent responsiveness. To learn more about Nemotron 3 Super’s architecture and how it is trained, see Introducing Nemotron 3 Super: an Open Hybrid Mamba Transformer MoE for Agentic Reasoning . NVIDIA Nemotron 3 Super use cases Nemotron 3 Super helps power various use cases for different industries. Some of the use cases include Software development: Assist with tasks like code summarization. Finance: Accelerate loan processing by extracting data, analyzing income patterns, and detecting fraudulent operations, which can help reduce cycle times and risk. Cybersecurity: Can be used to triage issues, perform in-depth malware analysis, and proactively hunt for security threats. Search: Can help understand user intent to activate the right agents. Retail: Can help optimize inventory management and enhance in-store service with real-time, personalized product recommendations and support. Multi-agent Workflows: Orchestrates task‑specific agents—planning, tool use, verification, and domain execution—to automate complex, end‑to‑end business processes. Get Started with NVIDIA Nemotron 3 Super in Amazon Bedrock. Complete the following steps to test NVIDIA Nemotron 3 Super in Amazon Bedrock Navigate to the Amazon Bedrock console and select Chat/Text playground from the left menu (under the Test section). Choose Select model in the upper-left corner of the playground. Choose NVIDIA from the category list, then select NVIDIA Nemotron 3 Super . Choose Apply to load the model. After completing the previous steps, you can test the model immediately. To truly showcase Nemotron 3 Super’s capability, we will move beyond simple syntax and task it with a complex engineering challenge. High-reasoning models excel at “system-level” thinking where they must balance architectural trade-offs, concurrency, and distributed state management. Let’s use the following prompt to design a globally distributed service: "Design a distributed rate-limiting service in Python that must support 100,000 requests per second across multiple geographic regions. 1. Provide a high-level architectural strategy (e.g., Token Bucket vs. Fixed Window) and justify your choice for a global scale. 2. Write a thread-safe implementation using Redis as the backing store. 3. Address the 'race condition' problem when multiple instances

À lire aussi

1The Decoder17min

OpenAI : Sam Altman évoque en interne un modèle "très puissant" capable d'"accélérer vraiment l'économie

OpenAI aurait achevé le pré-entraînement de son prochain grand modèle d'IA, dont le nom de code interne est « Spud ». Le PDG Sam Altman l'a décrit en interne comme « très puissant » et capable d'« accélérer vraiment l'économie ». Si ces déclarations se confirment, ce modèle marquerait un nouveau palier dans les capacités des IA génératives, avec des implications potentiellement significatives pour la productivité économique à grande échelle. OpenAI enchaîne les sorties de modèles à un rythme soutenu, dans un contexte de concurrence intense avec Google, Anthropic et les acteurs chinois comme DeepSeek.

UEUn nouveau modèle OpenAI de cette envergure pourrait accélérer l'adoption de l'IA en Europe et renforcer la pression réglementaire dans le cadre de l'AI Act.

LLMsActu
1 source
2Siècle Digital4h

Anthropic transforme Claude en assistant autonome capable d’agir sur votre ordinateur

Anthropic a doté Claude d'une fonctionnalité appelée « computer use », lui permettant d'agir de manière autonome sur un ordinateur sans intervention humaine. Cette avancée marque un tournant majeur dans l'utilisation des IA, ouvrant la voie à des assistants capables d'exécuter des tâches concrètes directement sur les systèmes des utilisateurs. Cette évolution transforme profondément la façon dont les professionnels peuvent déléguer des tâches à l'intelligence artificielle.

UELes professionnels et entreprises européens peuvent désormais déléguer des tâches informatiques complexes à Claude, avec des implications potentielles pour la réglementation sur les agents IA autonomes dans le cadre de l'AI Act.

LLMsActu
1 source
3Frandroid5h

La prochaine version de Siri pourrait tout copier sur ChatGPT

Apple prépare une nouvelle version de Siri qui s'inspirerait fortement de ChatGPT, annoncée lors de la WWDC 2026. Après des années de difficultés dans le domaine de l'IA, Apple cherche à redonner un rôle central à son assistant vocal historique.

LLMsOpinion
1 source
401net5h

Apple : une nouvelle version de Siri en juin, pour de vrai cette fois ?

Apple prévoit de présenter le "vrai" nouveau Siri en juin 2026, après de nombreux reports depuis l'annonce d'une version dopée à l'IA lors de la WWDC 2024. Le projet a connu une crise interne et un changement de moteur complet, nécessitant une refonte totale. Un lancement sur les appareils Apple serait envisagé pour septembre.

UELe nouveau Siri touchera des millions d'utilisateurs européens d'appareils Apple dès septembre 2026.

LLMsOpinion
1 source