Faciliter l'accès externe à Amazon SageMaker…

38

1AWS ML Blog

Bonnes pratiques pour l'inférence sur Amazon SageMaker HyperPod

Amazon a enrichi sa plateforme SageMaker HyperPod d'un ensemble de fonctionnalités dédiées à l'inférence de modèles d'IA générative, avec pour promesse affichée une réduction du coût total de possession allant jusqu'à 40%. La solution s'appuie sur Amazon Elastic Kubernetes Service (EKS) comme orchestrateur et permet de créer un cluster en quelques clics depuis la console SageMaker AI. Deux modes de configuration sont proposés : une installation rapide avec des ressources par défaut, et une installation personnalisée permettant d'intégrer des infrastructures existantes. Une fois le cluster actif, l'opérateur d'inférence intégré permet de déployer des modèles directement depuis des buckets S3, des systèmes de fichiers FSx for Lustre, ou depuis le catalogue SageMaker JumpStart, sans écrire une seule ligne de code. Des notebooks d'exemple couvrent les cas d'usage courants : modèles préconstruits, modèles fine-tunés, configurations personnalisées. L'enjeu central de cette mise à jour est la gestion dynamique des ressources GPU, historiquement coûteuse et complexe à piloter. HyperPod introduit une architecture de scalabilité à deux niveaux : KEDA (Kubernetes Event-Driven Autoscaling), un projet open source de la Cloud Native Computing Foundation, gère l'autoscaling des pods en fonction de métriques temps réel comme la longueur de la file de requêtes, la latence, ou des métriques CloudWatch et Prometheus personnalisées. KEDA peut réduire le nombre de pods à zéro en l'absence de trafic, supprimant ainsi les coûts à l'arrêt. En parallèle, Karpenter opère au niveau des nœuds de calcul : il provisionne ou retire des instances selon les besoins des pods en attente, et tourne dans le plan de contrôle EKS, ce qui évite tout surcoût lié à l'autoscaler lui-même. Cette combinaison permet de passer de zéro à une charge de production en réponse à la demande réelle. Ce lancement intervient dans un contexte où le déploiement de modèles de fondation à grande échelle est devenu un point de friction majeur pour les équipes IA en entreprise : infrastructure difficile à calibrer, pics de trafic imprévisibles, surinvestissement GPU, et délais de mise en production allongés. AWS positionne HyperPod comme une réponse complète à ce trilemme coût-performance-simplicité, en absorbant la complexité opérationnelle dans une couche managée. La plateforme concurrence directement les offres de Google (Vertex AI) et Microsoft Azure (ML endpoints managés), qui proposent des approches similaires. Les suites probables incluent une intégration plus poussée avec les outils d'observabilité AWS et une extension du support à d'autres architectures de modèles, alors que la course aux infrastructures d'inférence efficaces s'intensifie dans tout le secteur cloud.

InfrastructureActu

1 source

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

42

2AWS ML Blog

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto

1 source

Renforcement de l'inférence entreprise sur Amazon SageMaker HyperPod grâce à l'intégration de Hugging Face, NVMe et Route 53

35

3AWS ML Blog

Renforcement de l'inférence entreprise sur Amazon SageMaker HyperPod grâce à l'intégration de Hugging Face, NVMe et Route 53

Amazon vient d'enrichir SageMaker HyperPod, sa plateforme d'inférence pour l'intelligence artificielle générative en entreprise, avec plusieurs nouvelles fonctionnalités destinées à améliorer l'observabilité et la flexibilité du déploiement de modèles. La première nouveauté majeure est la capture de données d'inférence, qui permet d'enregistrer les requêtes et réponses à trois niveaux distincts du chemin d'inférence : au niveau du endpoint SageMaker AI, au niveau de l'Application Load Balancer (ALB), et au niveau du pod du modèle lui-même. Chaque niveau se configure indépendamment via une définition de ressource personnalisée (CRD) déclarative, avec un stockage des données capturées dans un bucket Amazon S3, chiffrement optionnel via AWS KMS, et réglages fins du taux d'échantillonnage, de la taille des lots et des limites de charge utile. Par exemple, le niveau du pod capture par défaut 100% des entrées et sorties, tandis que le niveau ALB active les journaux d'accès classiques incluant adresses IP clients, chemins de requêtes et latences. Autre avancée : le déploiement direct de modèles depuis des hubs communautaires comme Hugging Face, sans avoir à pré-charger les poids dans un espace de stockage objet ou fichier, avec prise en charge de l'accès restreint (gated), de l'épinglage de versions et de l'isolation des tokens, compatible avec les moteurs d'inférence vLLM, TGI et SGLang. Ces évolutions répondent à un besoin croissant des entreprises qui déploient des modèles de langage à grande échelle en production : pouvoir surveiller précisément ce qui transite dans leurs pipelines d'inférence, tout en réduisant les frictions opérationnelles. La possibilité de charger les poids d'un modèle directement depuis un stockage NVMe local au nœud de calcul réduit sensiblement la latence de démarrage à froid, un problème récurrent qui pénalise les applications d'IA nécessitant une mise à l'échelle rapide, avec un repli automatique vers le stockage cloud en cas de besoin. La gestion automatique des enregistrements DNS pour les domaines personnalisés via Route 53 simplifie par ailleurs le travail des équipes d'infrastructure, qui bénéficient également de permissions IAM granulaires au niveau de chaque pod pour renforcer les frontières de sécurité. Pour les équipes techniques, cela signifie livrer des applications d'IA plus rapidement sans sacrifier la gouvernance des données ni la visibilité opérationnelle, deux exigences de plus en plus scrutées à mesure que les modèles génératifs s'intègrent dans des processus métiers sensibles. Ces annonces s'inscrivent dans la course que se livrent les grands fournisseurs cloud, Amazon Web Services en tête, pour simplifier l'exploitation de modèles d'IA génératifs à grande échelle, un domaine où la complexité opérationnelle freine encore de nombreuses entreprises. HyperPod, lancé pour l'entraînement de modèles massifs, élargit ainsi son périmètre vers l'inférence de production, un segment où la concurrence avec Google Cloud et Microsoft Azure s'intensifie. L'intégration native avec Hugging Face illustre aussi la volonté d'AWS de faciliter l'accès aux modèles open source les plus populaires, sans complexité de préparation de l'infrastructure. À mesure que les entreprises multiplient les cas d'usage en production, la demande pour des outils d'audit, de traçabilité et de contrôle des coûts d'inférence devrait continuer de croître, poussant les fournisseurs cloud à approfondir ces capacités de gestion fine des workloads d'IA.

UEImpact indirect uniquement: les entreprises françaises et européennes utilisant AWS SageMaker HyperPod pourraient bénéficier de ces améliorations opérationnelles, mais aucune régulation ni acteur français/européen n'est concerné directement.

InfrastructureActu

1 source

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

38

4AWS ML Blog

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

InfrastructureActu

1 source

Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API

À lire aussi

Bonnes pratiques pour l'inférence sur Amazon SageMaker HyperPod

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Renforcement de l'inférence entreprise sur Amazon SageMaker HyperPod grâce à l'intégration de Hugging Face, NVMe et Route 53

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative