InfrastructureAWS ML Blog3h· 2 min de lecture

Se retire de GovCloud (US) : NVIDIA Nemotron et OpenAI GPT OSS accessibles sur Amazon Bedrock

Cette semaine, Amazon a annoncé l'arrivée de nouveaux modèles ouverts sur Amazon Bedrock, dans la région AWS GovCloud (US), un environnement cloud isolé réservé aux agences gouvernementales américaines, au secteur de la défense et du renseignement, ainsi qu'à leurs sous-traitants. Concrètement, Bedrock prend désormais en charge les modèles GPT OSS d'OpenAI (versions 120 milliards et 20 milliards de paramètres) ainsi que la famille NVIDIA Nemotron 3, comprenant Nemotron 3 Super (120 milliards de paramètres, architecture hybride de mélange d'experts n'activant que 12 milliards de paramètres par token) et les modèles Nemotron 3 Nano (versions 9B, 12B et 30B). Ces modèles fonctionnent entièrement sur une infrastructure exploitée par AWS, physiquement située aux États-Unis et administrée exclusivement par des citoyens américains, à l'intérieur du périmètre de conformité GovCloud. Cette région répond à des référentiels réglementaires stricts, dont le FedRAMP High, les niveaux d'impact 2, 4 et 5 du DoD Cloud Computing Security Requirements Guide, les règles ITAR sur le trafic d'armes, et les exigences CJIS pour les données judiciaires.

Cette annonce répond à une tension centrale pour les administrations américaines : elles doivent pouvoir exploiter des modèles d'IA aussi performants que ceux utilisés dans le secteur privé, sans jamais faire sortir de données sensibles du périmètre réglementaire qui les encadre. Jusqu'ici, l'accès aux modèles ouverts les plus avancés impliquait souvent des compromis sur la souveraineté ou la conformité des données. En intégrant GPT OSS et Nemotron directement dans Bedrock au sein de GovCloud, Amazon permet aux agences fédérales, aux équipes de renseignement et à leurs prestataires de construire des applications agentiques pour des cas d'usage concrets : analyse de renseignement, planification de missions, examen de documents d'acquisition et de contrats, analyse de journaux de sécurité, évaluation automatisée de contrôles de sécurité, synthèse multi-documents et vérification de conformité réglementaire. L'accès via une API unifiée permet en outre de changer de modèle selon le besoin sans modifier le code applicatif, ce qui simplifie l'adoption pour des équipes techniques gouvernementales souvent contraintes par des cycles d'certification longs.

Cette évolution s'inscrit dans la course plus large que se livrent les grands fournisseurs cloud pour capter la demande croissante en IA générative des administrations publiques, un marché où la confiance réglementaire pèse autant que la performance technique. Amazon Bedrock fonctionne comme une plateforme neutre donnant accès à des modèles de plusieurs fournisseurs indépendants, une stratégie qui contraste avec l'intégration verticale d'autres acteurs du cloud. L'arrivée de modèles ouverts d'OpenAI et de NVIDIA dans un environnement aussi cloisonné que GovCloud illustre aussi la normalisation des modèles à poids ouverts, autrefois cantonnés à la recherche ou aux usages commerciaux, dans des contextes de mission critique. Reste à voir combien d'autres familles de modèles ouverts suivront ce chemin vers les environnements souverains et régulés, et si cette disponibilité accélérera réellement l'adoption de l'IA agentique au sein des agences fédérales et des acteurs de la défense.

Dans nos dossiers

AWS Souveraineté IA OpenAI NVIDIA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore

Amazon Web Services a présenté une architecture de référence pour déployer des systèmes multi-agents d'IA générative à grande échelle sur AWS, en combinant LangGraph, AWS Lambda, AWS Step Functions et les deux nouveaux services Amazon Bedrock AgentCore Memory et AgentCore Observability. L'approche repose sur une infrastructure entièrement serverless : les agents LangGraph sont packagés dans des conteneurs Docker exécutés sur Lambda, ce qui permet une montée en charge automatique sans gestion d'infrastructure. Pour illustrer le concept, AWS décrit un système concret de révision de campagnes marketing orchestrant trois agents spécialisés en parallèle, un agent "persona reviewer" qui évalue la résonance du contenu auprès de différents profils démographiques, un agent "validator" qui vérifie la conformité juridique et les chartes de marque, et un agent "finalizer" qui synthétise les retours en recommandations actionnables. Une interface React permet aux utilisateurs de télécharger leurs documents et de consulter les résultats en temps réel. Ce type d'architecture répond à un problème concret que rencontrent les entreprises en production : les agents IA performants en démo s'effondrent souvent sous la charge réelle, perdent le contexte entre les sessions et restent des boîtes noires difficiles à déboguer. AgentCore Memory résout la question de la mémoire en offrant à la fois un contexte conversationnel à court terme et une base de connaissances persistante entre sessions. AgentCore Observability capture quant à lui chaque invocation avec ses entrées et sorties LLM, la latence, et les métriques de chaîne d'outils sur l'ensemble des composants distribués. Pour les équipes en charge de systèmes critiques, c'est un changement de paradigme : il devient possible d'auditer exactement comment un agent a raisonné, quelle décision il a prise à quelle étape, et pourquoi. Cette publication s'inscrit dans une accélération visible chez AWS pour proposer une pile complète d'IA agentique cloud-native, face à la concurrence de Google (Vertex AI Agents) et Microsoft (Azure AI Foundry). LangGraph, développé par LangChain, s'impose progressivement comme standard de facto pour l'orchestration d'agents grâce à son modèle d'exécution en graphe orienté qui rend le flux de contrôle déterministe, parallélisable et conditionnel. L'intégration native avec Lambda et Step Functions est particulièrement stratégique pour les charges de travail "bursty" typiques des agents IA, où la demande est imprévisible et les coûts d'une infrastructure dédiée permanente seraient prohibitifs. La prochaine étape logique pour AWS sera d'étendre ces patterns à des workflows plus complexes impliquant des boucles de feedback humain et des agents à longue durée de vie, un segment encore largement inexploré en production.

InfrastructureActu

1 source

2AWS ML Blog

Exécuter des proxies MCP personnalisés en serverless sur Amazon Bedrock AgentCore Runtime

Amazon Web Services vient de détailler une architecture permettant de déployer des proxys MCP (Model Context Protocol) personnalisés en mode serverless sur Amazon Bedrock AgentCore Runtime. Cette solution s'adresse aux équipes qui souhaitent insérer une couche de contrôle programmable entre leurs agents IA et les outils auxquels ils accèdent, bases de données, API tierces, systèmes de fichiers, sans modifier ni le client ni le serveur MCP en amont. Le proxy s'exécute comme une charge de travail sans état sur AgentCore Runtime, découvre automatiquement les outils disponibles au démarrage, les réexpose avec la logique personnalisée appliquée, puis transfère les requêtes de manière transparente. L'infrastructure est entièrement gérée par AWS, avec mise à l'échelle automatique, observabilité intégrée via Amazon CloudWatch et OpenTelemetry, et gestion des identités via AgentCore Identity. L'intérêt concret est d'ordre gouvernance et conformité. En production, les interactions entre agents IA et outils doivent respecter des politiques de sécurité internes, des réglementations sectorielles et des exigences d'auditabilité spécifiques : nettoyage des entrées avant qu'elles atteignent les systèmes backend, génération de journaux d'audit dans des formats particuliers, ou encore rédaction de données sensibles au niveau du protocole. AgentCore Gateway propose déjà des intercepteurs Lambda pour intégrer ce type de logique, mais certaines organisations disposent de bibliothèques de filtrage MCP internes ou de systèmes de conformité on-premises qu'elles ne souhaitent pas refactoriser en fonctions Lambda. Le proxy serverless sur Runtime offre alors une alternative portable, réutilisable dans des environnements hybrides ou multi-systèmes, sans dépendance à un intercepteur spécifique à une plateforme. Ce développement s'inscrit dans l'adoption rapide du Model Context Protocol comme standard de facto pour connecter les agents IA à leurs outils. MCP, initialement proposé par Anthropic fin 2024, est désormais supporté par la plupart des grandes plateformes d'agents, et AWS positionne AgentCore comme son infrastructure de référence pour les déploiements en production. La solution présentée s'appuie sur une implémentation open source disponible sur GitHub, ce qui facilite l'adoption et la personnalisation. Elle peut également se connecter à AgentCore Gateway pour bénéficier de la découverte gérée des outils, de la gestion des credentials et de l'application de politiques à l'échelle, y compris sur des fonctions Lambda et des intégrations SaaS. Pour les équipes qui industrialisent leurs agents IA, ce pattern représente une brique d'infrastructure critique pour passer du prototype au déploiement régi par des exigences d'entreprise réelles.

UELes entreprises européennes déployant des agents IA sur AWS peuvent s'appuyer sur cette architecture pour implémenter des couches de conformité RGPD et AI Act sans refactoriser leurs bibliothèques de filtrage MCP existantes.

InfrastructureActu

1 source

3AWS ML Blog

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto

1 source

4AWS ML Blog

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Amazon Web Services a rendu disponibles sur Amazon SageMaker AI les instances P6-B200, équipées de huit GPU NVIDIA Blackwell B200, pour l'entraînement de modèles de machine learning à grande échelle. Ces GPU de nouvelle génération embarquent 180 Go de mémoire HBM par puce (268 Go sur le B300), contre des capacités bien inférieures sur les générations précédentes, et s'interconnectent via NVLink 5 qui atteint 1,8 To/s de bande passante bidirectionnelle entre GPU. La configuration cible des modèles Transformer allant de 1 à 64 milliards de paramètres, entraînés en parallélisme de données fragmentées (FSDP de PyTorch) sur un nœud unique à huit GPU. L'accès à ces instances peut être réservé via le programme Flexible Training Plan d'AWS pour bénéficier d'une capacité prévisible et d'une gestion automatisée des ressources. Cette architecture modifie concrètement ce qui est réalisable dans l'entraînement de grands modèles. Jusqu'ici, les ingénieurs se heurtaient à trois contraintes classiques : des tailles de batch limitées par la mémoire GPU, des séquences tronquées pour éviter les erreurs out-of-memory, et un fractionnement du modèle sur plusieurs nœuds qui génère une surcharge réseau importante. Avec 180 Go par GPU, certains modèles qui nécessitaient auparavant plusieurs nœuds peuvent désormais tenir sur un seul nœud à huit GPU, ce qui réduit la latence de communication, accélère les cycles d'itération et diminue les coûts d'infrastructure. Des séquences plus longues deviennent viables pour les tâches de dépendances à longue portée, et le nombre d'étapes de synchronisation des gradients diminue avec des batchs plus grands, améliorant le débit global. NVIDIA Blackwell représente la cinquième génération de Tensor Cores de la marque, et son architecture dual-chip marque une rupture par rapport aux générations Ampere et Hopper. L'explosion de la taille des modèles ces trois dernières années, de GPT-3 à 175 milliards de paramètres jusqu'aux modèles actuels dépassant le trillion, a poussé les fournisseurs cloud et les fabricants de puces à repenser conjointement leurs offres. AWS et NVIDIA ont renforcé leur partenariat autour de SageMaker pour proposer une intégration clé en main qui abstrait la gestion de l'infrastructure. Les prochaines étapes pratiques pour les équipes ML consistent à calibrer le format de précision (FP8, BF16 ou FP16 selon la taille du modèle), ajuster le checkpointing d'activations pour équilibrer mémoire et calcul, et décider si la priorité est le débit, la réduction des communications inter-GPU ou la longueur de contexte. L'enjeu pour AWS est de capter une part croissante des budgets d'entraînement de modèles fondationnels, un marché où Google Cloud et Microsoft Azure jouent également des capacités GPU Blackwell.

InfrastructureActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic