Aller au contenu principal
NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart
LLMsAWS ML Blog6sem· 2 min de lecture

NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart

Résumé IASources croisées · 2Impact UE
Source originale ↗·
Egalement couvert par :Le Big Data

NVIDIA vient de rendre disponible son modèle Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart, avec une mise en ligne dite "day zero", soit le jour même du lancement officiel. Ce modèle de langage multimodal open source repose sur une architecture hybride Mamba2 Transformer avec Mixture of Experts (MoE), affichant 30 milliards de paramètres au total dont seulement 3 milliards actifs (architecture dite 30B A3B). Il intègre trois composants spécialisés : Nemotron 3 Nano LLM comme colonne vertébrale linguistique, CRADIO v4-H pour l'encodage visuel (images et vidéos), et Parakeet pour la transcription et la compréhension audio. Le modèle accepte des vidéos jusqu'à 2 minutes (256 images maximum), des fichiers audio jusqu'à 1 heure, des images JPEG et PNG, ainsi que du texte sur une fenêtre de contexte de 131 000 tokens. Il prend en charge le raisonnement en chaîne de pensée, les appels d'outils, la sortie JSON et les horodatages au niveau du mot pour la transcription. Disponible en précision FP8 sur SageMaker JumpStart, il est commercialisé sous la licence NVIDIA Open Model Agreement.

L'apport concret de Nemotron 3 Nano Omni réside dans sa capacité à traiter vidéo, audio, images et texte en une seule passe d'inférence, là où les architectures actuelles empilent plusieurs modèles distincts pour chaque modalité. Cette fragmentation classique multiplie les allers-retours d'inférence, complique l'orchestration des pipelines, fragmente le contexte entre modalités et fait croître les coûts et les points de défaillance. En fonctionnant comme un sous-agent de perception unifié au sein d'un système d'agents, le modèle offre simultanément vision, ouïe et compréhension textuelle dans une même boucle de raisonnement. Les cas d'usage ciblés incluent les agents de contrôle d'interfaces graphiques, l'analyse documentaire, contrats, états financiers, rapports scientifiques, ainsi que la surveillance audio et vidéo pour le service client ou la recherche.

Ce lancement s'inscrit dans une dynamique plus large de convergence des architectures multimodales, où les grands fournisseurs cherchent à réduire la complexité des systèmes agentiques d'entreprise. NVIDIA, historiquement dominant sur le matériel GPU, renforce ici sa présence sur la couche modèle avec une offre ouverte et commercialement exploitable, accessible directement via SageMaker JumpStart, la plateforme de déploiement géré d'Amazon Web Services. Cette disponibilité immédiate dans l'écosystème AWS facilite l'adoption pour les entreprises sans nécessiter de configuration d'infrastructure propre. La tendance vers des modèles unifiés capables de percevoir et raisonner sur plusieurs modalités simultanément devrait s'accélérer, à mesure que les architectures agentiques complexes cherchent à réduire latence, coûts et friction opérationnelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
1AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
Claude Opus 4.8 est désormais disponible sur AWS
2AWS ML Blog 

Claude Opus 4.8 est désormais disponible sur AWS

Anthropic a annoncé la disponibilité de Claude Opus 4.8, son modèle le plus avancé de la gamme Opus, sur Amazon Bedrock et sur la Claude Platform déployée sur AWS. Ce lancement permet aux équipes de développement d'intégrer le modèle directement dans leurs environnements AWS existants, tout en bénéficiant des garanties de sécurité entreprise, de résidence régionale des données et de la scalabilité d'infrastructure propres à Amazon. Pour les cas d'usage ne nécessitant pas de résidence régionale, le modèle est également accessible via la plateforme native d'Anthropic hébergée sur AWS. Techniquement, l'accès se fait via le SDK Anthropic avec l'identifiant de modèle us.anthropic.claude-opus-4-8, ou via les API Invoke et Converse d'Amazon Bedrock. Ce qui distingue Opus 4.8 de ses prédécesseurs, c'est sa capacité à maintenir un plan d'action sur plusieurs étapes successives, à suivre ce qui a été accompli et ce qui reste à faire, et surtout à se recorriger lorsqu'un blocage survient plutôt que de simplement s'arrêter sur une erreur. Pour les équipes qui automatisent des tâches longues et complexes, cette stabilité se traduit concrètement par moins de variance dans les sorties, moins de cycles de révision manuelle, et une supervision réduite des pipelines en production. En développement logiciel, le modèle est conçu pour naviguer dans de vraies bases de code, planifier avant d'éditer, et conserver le contexte sur des sessions prolongées. Les cas d'usage industriels ciblés incluent la recherche d'investissement et l'analyse de résultats financiers, la rédaction de contrats et de mémoires juridiques, la synthèse de littérature scientifique et de soumissions réglementaires en sciences du vivant, ainsi que l'analyse de menaces et la réponse à incident en cybersécurité. Ce lancement s'inscrit dans une stratégie de partenariat approfondi entre Anthropic et AWS, qui s'est notamment matérialisée par un investissement d'Amazon pouvant atteindre quatre milliards de dollars dans Anthropic. La disponibilité sur Bedrock est stratégique pour Anthropic, qui cherche à s'imposer comme fournisseur de référence pour les déploiements en entreprise, face à la concurrence directe d'OpenAI via Azure et de Google DeepMind via Vertex AI. Opus 4.8 représente le haut de gamme de la nouvelle génération Claude 4, une famille de modèles qui comprend également Sonnet 4.6 et Haiku 4.5, chacun positionné sur un équilibre différent entre performance et coût d'inférence. La prochaine étape pour Anthropic sera probablement d'élargir la disponibilité régionale du modèle sur Bedrock, et d'affiner ses capacités dans les domaines où la régulation de l'IA évolue rapidement.

UELes entreprises européennes peuvent déployer Claude Opus 4.8 sur Amazon Bedrock avec résidence régionale des données, facilitant la conformité RGPD pour les cas d'usage en production.

LLMsActu
1 source
Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart
3AWS ML Blog 

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

Amazon Web Services vient d'annoncer la disponibilité de NEXUS, le modèle de fondation développé par la startup Fundamental, sur Amazon SageMaker JumpStart. NEXUS est un "Large Tabular Model" conçu spécifiquement pour les données structurées -- tableurs, bases de données relationnelles, systèmes ERP et CRM -- là où réside la majorité des données critiques des entreprises. Contrairement aux LLMs classiques, il a été pré-entraîné sur des milliards de tâches de prédiction réelles issues de datasets structurés. Il peut être déployé en tant qu'endpoint SageMaker managé sur une instance ml.p5en.48xlarge équipée de 8 GPU NVIDIA H200, avec accès via un SDK Python compatible scikit-learn incluant des estimateurs NEXUSClassifier et NEXUSRegressor. NEXUS s'attaque à un problème concret que rencontrent quotidiennement les équipes data des grandes entreprises : générer des prédictions fiables à partir de données tabulaires prend habituellement entre trois et six mois de travail pour une équipe de data scientists, entre le feature engineering, l'entraînement, la validation et le déploiement. Fundamental promet de ramener ce délai à quelques jours. L'un des atouts clés du modèle est son architecture déterministe : là où les LLMs produisent des réponses différentes à des questions identiques, NEXUS garantit des résultats reproductibles pour chaque prédiction individuelle. Il gère nativement les nombres, catégories, dates et textes sans prétraitement manuel, tolère les données manquantes, traite des datasets de plusieurs milliards de lignes sans troncature, et reconnaît que l'ordre des colonnes ne change pas la sémantique des données -- une propriété appelée permutation invariance, absente des architectures transformer classiques. Ce lancement s'inscrit dans une tendance plus large de spécialisation des modèles de fondation par type de données. Si les LLMs comme GPT-4 ou Claude ont démontré leur puissance sur le texte et les modèles de diffusion sur les images, les données tabulaires sont longtemps restées le terrain des approches ML traditionnelles -- gradient boosting, random forests -- ou de tentatives maladroites d'adapter des LLMs à des formats pour lesquels ils n'étaient pas conçus. La tokenisation numérique dans les LLMs introduit en effet des erreurs de contexte qui les rendent peu fiables sur des données structurées à haute précision. Fundamental parie que les données tabulaires méritent leur propre classe de modèles de fondation, et l'intégration avec SageMaker JumpStart lui donne accès à l'écosystème cloud d'AWS pour une diffusion à grande échelle auprès des entreprises. Le modèle est distribué via AWS Marketplace, positionnant clairement Fundamental sur le marché B2B des outils data enterprise.

OutilsOutil
1 source
NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace
4NVIDIA Developer Blog 

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

NVIDIA a dévoilé Nemotron-N-Nano-3B-Omni, un modèle multimodal compact capable de traiter simultanément du texte, des images, des vidéos et de l'audio au sein d'une seule architecture unifiée. Conçu pour l'inférence efficace, ce modèle de 3 milliards de paramètres est publié en open weights, ce qui permet à n'importe quel développeur de le télécharger, le modifier et le déployer sans dépendre des serveurs NVIDIA. Il prend en charge le raisonnement agentique, c'est-à-dire la capacité à enchaîner des perceptions et des actions dans une boucle autonome, couvrant aussi bien l'analyse de documents que l'interprétation d'écrans ou la compréhension vocale. L'intérêt principal de ce modèle réside dans sa conception monolithique : là où les systèmes agentiques actuels assemblent des chaînes de modèles spécialisés distincts pour la vision, l'audio et le texte, Nemotron Nano Omni gère l'ensemble dans un seul passage d'inférence. Cela réduit significativement la latence, la complexité d'orchestration et le coût de calcul, tout en maintenant une cohérence contextuelle entre les modalités. Pour les entreprises qui déploient des agents IA en production, c'est une réduction directe de la facture cloud et des points de défaillance. Ce lancement s'inscrit dans la stratégie plus large de NVIDIA de dominer non seulement le matériel GPU, mais aussi la couche logicielle et les modèles fondamentaux pour l'IA d'entreprise. La série Nemotron, qui comprend également des modèles plus grands comme Nemotron-4, vise à offrir des alternatives performantes aux modèles propriétaires d'OpenAI ou d'Anthropic. Avec la montée en puissance des agents autonomes capables d'interagir avec des interfaces graphiques, des fichiers et des flux audio, un modèle omnimodal efficace et ouvert représente une brique stratégique pour la prochaine génération d'assistants et d'automatisations.

UELes développeurs et entreprises européennes peuvent déployer cet agent IA multimodal open weights directement sur leur propre infrastructure, réduisant la dépendance aux API cloud américaines et renforçant la souveraineté numérique.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic