Aller au contenu principal
Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement
OutilsAWS ML Blog12sem· 1 min de lecture

Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement

Source originale ↗·

Amazon SageMaker AI étend désormais ses plans d'entraînement aux charges de travail d'inférence, permettant aux équipes de réserver de la capacité GPU pour des périodes définies. Une avancée concrète pour les équipes qui déploient des grands modèles de langage (LLM) en production ou en phase d'évaluation, et qui se heurtent régulièrement à l'indisponibilité des instances GPU sur demande.

L'enjeu est significatif : les instances GPU haut de gamme comme les ml.p5.48xlarge sont soumises à une forte pression en période de pic, rendant les déploiements imprévisibles et les benchmarks impossibles à planifier sérieusement. Jusqu'ici, les plans d'entraînement SageMaker permettaient uniquement de réserver de la capacité pour les jobs d'entraînement. Leur extension aux endpoints d'inférence comble un vide critique dans le cycle de vie des modèles, notamment pour les phases d'évaluation comparative, les tests de production à durée limitée, ou les pics de charge prévisibles.

Le fonctionnement repose sur quatre étapes : identifier les besoins en capacité (type d'instance, quantité, durée), interroger les offres disponibles via l'API search-training-plan-offerings, créer la réservation en spécifiant "endpoint" comme ressource cible — ce qui génère un ARN dédié —, puis référencer cet ARN dans la configuration de l'endpoint SageMaker. La capacité réservée est ainsi garantie pour toute la fenêtre temporelle choisie. Le cas d'usage illustratif décrit une équipe data science nécessitant une instance ml.p5.48xlarge pendant deux semaines pour comparer plusieurs modèles fine-tunés avant sélection en production.

Cette évolution positionne AWS sur un axe de prévisibilité opérationnelle que ses concurrents peinent encore à offrir avec la même granularité. Pour les organisations contraintes par des SLA stricts ou des cycles d'évaluation rigoureux, la possibilité de découpler la disponibilité GPU de l'aléa du marché spot représente un avantage concret — à condition d'anticiper les besoins et d'en absorber le coût de réservation.

Impact France/UE

Les équipes data science européennes utilisant AWS SageMaker peuvent désormais réserver des capacités GPU dédiées pour leurs endpoints d'inférence, réduisant les incertitudes de disponibilité sur les instances p-family.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Créer des agents Strands avec les modèles SageMaker AI et MLflow
1AWS ML Blog 

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil
1 source
2AWS ML Blog 

Métriques enrichies pour les endpoints Amazon SageMaker AI : une visibilité approfondie pour de meilleures performances

Amazon SageMaker AI introduit des métriques améliorées avec une fréquence de publication configurable, offrant une visibilité granulaire au niveau des instances EC2 et des conteneurs individuels. Ces nouvelles métriques permettent de surveiller l'utilisation CPU, GPU et mémoire par instance, ainsi que les patterns de requêtes, erreurs et latences avec des dimensions précises. Grâce aux Inference Components, il est désormais possible de calculer le coût réel par modèle en suivant l'allocation GPU au niveau de chaque composant d'inférence.

OutilsActu
1 source
Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés
3AWS ML Blog 

Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés

Amazon a annoncé le 18 juin 2026 une mise à jour significative de SageMaker AI Async Inference : les développeurs peuvent désormais envoyer leurs données directement dans le corps de la requête API, sans passer par Amazon S3. Concrètement, le nouveau paramètre Body de l'API InvokeEndpointAsync accepte jusqu'à 128 000 octets de données brutes en ligne. La fonctionnalité est disponible dans 31 régions commerciales AWS, de l'Irlande au Japon en passant par le Brésil et l'Afrique du Sud. Les paramètres Body et InputLocation (l'ancien chemin S3) sont mutuellement exclusifs : l'API rejette toute requête qui tenterait d'utiliser les deux simultanément. Le comportement en sortie reste inchangé, les résultats étant toujours écrits vers le bucket S3 configuré en sortie. Cette évolution simplifie concrètement le quotidien des équipes qui utilisent l'inférence asynchrone pour des charges utiles légères nécessitant un temps de traitement long. Avant cette mise à jour, même une requête de quelques kilooctets imposait deux étapes obligatoires : uploader le fichier sur S3, puis déclencher l'appel API avec l'URI de l'objet. Cela impliquait de provisionner un bucket S3 dédié, de gérer les permissions IAM s3:PutObject, d'implémenter un schéma de nommage pour éviter les collisions de clés, et de prévoir une stratégie de nettoyage des objets périmés. La suppression de ce aller-retour réseau réduit la latence, diminue les coûts S3 sur les charges de faible volume, et allège le code client de plusieurs dizaines de lignes de configuration. SageMaker Async Inference existe pour répondre à un besoin précis : traiter des requêtes pouvant prendre de quelques secondes à plusieurs minutes, avec prise en charge du passage automatique à zéro instance pour les workloads intermittents. La contrainte S3 avait été conçue à l'origine pour les gros payloads, images, fichiers audio ou documents multi-mégaoctets, où le stockage intermédiaire reste pertinent. Mais à mesure que les cas d'usage se sont diversifiés, notamment pour des pipelines de traitement de texte, de génération augmentée par récupération ou de classification légère nécessitant davantage de temps de calcul que ne le permet l'inférence temps réel, la friction S3 est devenue un point de friction disproportionné. Cette mise à jour aligne l'expérience développeur de l'async sur celle de l'inférence synchrone, tout en préservant la compatibilité avec les endpoints existants, sans modification du modèle ni du conteneur.

UELes développeurs européens utilisant SageMaker Async Inference, notamment via la région eu-west-1 (Irlande), peuvent désormais envoyer des payloads légers directement dans l'API sans passer par S3, simplifiant leurs pipelines et réduisant les coûts de stockage intermédiaire.

OutilsOutil
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
4AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic