Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement
Amazon SageMaker AI permet désormais d'utiliser les training plans — initialement conçus pour l'entraînement — pour réserver de la capacité GPU dédiée aux endpoints d'inférence. Cette fonctionnalité cible les équipes data science ayant besoin d'instances p-family (comme les `ml.p5.48xlarge`) de façon prévisible sur des périodes définies, par exemple pour évaluer plusieurs LLMs fine-tunés avant mise en production. Le workflow se déroule en quatre étapes : identifier les besoins en capacité, rechercher les offres disponibles, créer une réservation (qui génère un ARN), puis déployer l'endpoint en référençant cet ARN dans la configuration.
UELes équipes data science européennes utilisant AWS SageMaker peuvent désormais réserver des capacités GPU dédiées pour leurs endpoints d'inférence, réduisant les incertitudes de disponibilité sur les instances p-family.