Aller au contenu principal
OutilsAWS ML Blog13sem· 1 min de lecture

Métriques enrichies pour les endpoints Amazon SageMaker AI : une visibilité approfondie pour de meilleures performances

Source originale ↗·

Amazon SageMaker AI enrichit ses capacités de monitoring avec le lancement de métriques améliorées pour ses endpoints de déploiement de modèles. Cette mise à jour majeure apporte une visibilité granulaire jusqu'au niveau des conteneurs individuels et des instances EC2, permettant aux équipes d'ingénierie d'identifier précisément les goulots d'étranglement en production avant qu'ils n'affectent les utilisateurs finaux.

Jusqu'ici, les métriques CloudWatch proposées par SageMaker n'offraient qu'une vue agrégée sur l'ensemble des instances et conteneurs d'un endpoint. Cette approche masquait les problèmes individuels : une instance défaillante, un conteneur saturé ou une distribution inégale du trafic restaient invisibles dans les moyennes globales. La nouvelle fonctionnalité comble ce manque critique pour les équipes MLOps qui exploitent des modèles en production à grande échelle.

Les métriques enrichies se déclinent en deux catégories principales. Les métriques de ressources EC2 couvrent l'utilisation CPU, GPU et mémoire, disponibles pour chaque instance de tout endpoint SageMaker — y compris l'utilisation par accélérateur individuel sur les instances GPU. Les métriques d'invocation permettent de tracer requêtes, erreurs 4XX/5XX, latence modèle et latence overhead jusqu'au niveau instance. Pour les utilisateurs d'Inference Components — qui hébergent plusieurs modèles sur un même endpoint — une couche supplémentaire expose ces mêmes métriques au niveau conteneur, identifiées par InferenceComponentName et ContainerId, publiées dans les namespaces CloudWatch /aws/sagemaker/Endpoints, /aws/sagemaker/InferenceComponents et AWS/SageMaker.

Au-delà du diagnostic, cette granularité ouvre une capacité nouvelle : calculer le coût réel par modèle dans un environnement multi-tenant. En traçant l'allocation GPU au niveau de chaque Inference Component, les équipes peuvent désormais imputer précisément les coûts d'infrastructure à chaque modèle déployé — un argument fort pour les organisations qui cherchent à optimiser leurs dépenses cloud en IA.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement
1AWS ML Blog 

Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement

Amazon SageMaker AI permet désormais d'utiliser les training plans — initialement conçus pour l'entraînement — pour réserver de la capacité GPU dédiée aux endpoints d'inférence. Cette fonctionnalité cible les équipes data science ayant besoin d'instances p-family (comme les ml.p5.48xlarge) de façon prévisible sur des périodes définies, par exemple pour évaluer plusieurs LLMs fine-tunés avant mise en production. Le workflow se déroule en quatre étapes : identifier les besoins en capacité, rechercher les offres disponibles, créer une réservation (qui génère un ARN), puis déployer l'endpoint en référençant cet ARN dans la configuration.

UELes équipes data science européennes utilisant AWS SageMaker peuvent désormais réserver des capacités GPU dédiées pour leurs endpoints d'inférence, réduisant les incertitudes de disponibilité sur les instances p-family.

OutilsActu
1 source
2Blog du Modérateur 

CyberCité lance une offre IA pour des visuels publicitaires plus performants et stratégiques

CyberCité lance une nouvelle offre IA dédiée à la création de visuels publicitaires, combinant intelligence artificielle générative et supervision humaine. L'initiative est portée par Clément Auran (Consultant SEA et Média senior) et David Bonnamour (Head of IA). L'objectif est d'améliorer la performance et la pertinence stratégique des campagnes publicitaires.

UEUne agence française lance une offre d'IA générative pour la création de visuels publicitaires, directement accessible aux annonceurs français.

OutilsOutil
1 source
Créer un portail personnalisé avec les applications MLflow d'Amazon SageMaker AI intégrées
3AWS ML Blog 

Créer un portail personnalisé avec les applications MLflow d'Amazon SageMaker AI intégrées

Amazon Web Services propose une approche architecturale permettant aux équipes de machine learning d'intégrer Amazon SageMaker AI MLflow Apps directement dans un portail interne sur mesure, sans distribuer d'URLs présignées ni accorder d'accès individuels à la console AWS. La solution repose sur quatre composants déployés via AWS Cloud Development Kit (CDK) : un Application Load Balancer (ALB) comme point d'entrée unique, une application React embarquant l'interface MLflow dans un iframe, un reverse proxy Flask tournant sur Amazon EC2, et le service managé SageMaker AI MLflow Apps en backend. L'authentification AWS Signature Version 4 (SigV4) est gérée de façon transparente par le proxy Flask, qui intercepte chaque requête, la signe avec des identifiants temporaires obtenus via un rôle IAM dédié, puis la transmet à l'endpoint MLflow. Le résultat est une URL unique et permanente donnant accès à l'intégralité de l'interface MLflow, y compris le suivi des expériences, les métriques, les paramètres et les artefacts. Pour les équipes data comptant plusieurs dizaines de data scientists, ce modèle résout un problème opérationnel concret : l'impossibilité de distribuer des URLs présignées à grande échelle, et la charge administrative que représente la gestion des accès individuels à la console AWS. En intégrant MLflow au même portail SSO que les autres outils internes, les data scientists n'ont plus besoin de s'authentifier séparément ni de gérer des identifiants AWS. Les pipelines CI/CD et les scripts d'automatisation peuvent également interagir avec l'API REST MLflow via ce même endpoint proxy, sans modification côté client. Pour les responsables infrastructure, cela signifie moins de tickets d'accès, un onboarding simplifié et une surface d'attaque réduite, l'accès direct au service AWS restant invisible pour l'utilisateur final. MLflow s'est imposé comme standard de facto pour le suivi des expériences de machine learning, mais son intégration dans des environnements d'entreprise avec SSO et portails internes reste un point de friction fréquent. AWS, qui a intégré MLflow nativement dans SageMaker il y a moins d'un an, cherche à faciliter son adoption en entreprise en éliminant les barrières opérationnelles. Cette architecture de proxy inverse n'est pas nouvelle, elle s'applique à de nombreux services AWS accessibles via navigateur, mais sa documentation officielle pour MLflow marque une étape vers un usage plus industrialisé. La solution reste cependant incomplète en production : l'implémentation présentée utilise HTTP sans chiffrement, et AWS recommande explicitement d'ajouter HTTPS via AWS Certificate Manager avant tout déploiement réel. L'intégration SSO effective, mentionnée comme cas d'usage principal, n'est pas non plus couverte dans le guide, laissant aux équipes le soin d'assembler cette couche supplémentaire.

OutilsTuto
1 source
4AWS ML Blog 

Traçabilité de bout en bout avec DVC et Amazon SageMaker AI MLflow

Les équipes de machine learning en production font face à un problème récurrent : retracer précisément l'origine d'un modèle déployé. Quelle version du jeu de données l'a entraîné ? Peut-on reproduire à l'identique un modèle mis en production il y a six mois ? Amazon Web Services propose une réponse concrète en combinant trois outils : DVC (Data Version Control), Amazon SageMaker AI et SageMaker AI MLflow Apps. L'architecture s'articule en quatre étapes : un job SageMaker Processing prétraite les données brutes et les versionne via DVC en les poussant vers Amazon S3 ; un job SageMaker Training clone le dépôt DVC à un tag Git précis, récupère le dataset exact via dvc pull, entraîne le modèle et enregistre tout dans MLflow. Chaque run MLflow stocke un identifiant datagitcommit_id, soit le hash DVC pointant vers le dataset exact dans S3. Le modèle entraîné est ensuite enregistré dans le MLflow Model Registry et peut être déployé sur un endpoint SageMaker. La chaîne de traçabilité complète devient alors : modèle en production → run MLflow → commit DVC → dataset dans Amazon S3. Cet enchaînement répond à un besoin critique dans les secteurs régulés : santé, services financiers, véhicules autonomes. Dans ces domaines, les exigences d'audit imposent de relier chaque modèle déployé à ses données d'entraînement précises, et de pouvoir exclure à la demande des enregistrements individuels des futurs cycles d'entraînement. Sans ce niveau de traçabilité, une question apparemment simple, "quelles données ont servi à entraîner le modèle actuellement en production ?", peut mobiliser plusieurs jours d'enquête dans des logs dispersés, des notebooks et des buckets S3. La solution proposée réduit ce risque opérationnel en rendant la traçabilité structurelle plutôt qu'optionnelle. DVC est un outil open source gratuit qui étend Git pour gérer des datasets volumineux et des artefacts ML que Git seul ne peut pas versionner. MLflow, de son côté, assure le suivi des expériences, le registre des modèles et la lignée. Les deux outils couvrent chacun la moitié du problème de traçabilité, et leur combinaison ferme la boucle. L'implémentation requiert un compte AWS avec des permissions sur SageMaker, S3, CodeCommit et IAM, Python 3.11 ou 3.12, et le SDK SageMaker v3.4.0 minimum. Les notebooks utilisent AWS CodeCommit comme backend Git pour les métadonnées DVC, mais l'architecture est compatible avec GitHub, GitLab ou Bitbucket moyennant un simple remplacement de l'URL remote. AWS publie des notebooks d'accompagnement permettant de déployer les deux patterns décrits, traçabilité au niveau du dataset et traçabilité au niveau de l'enregistrement individuel, directement dans un compte AWS existant.

UELa traçabilité structurelle décrite répond directement aux exigences de documentation et d'auditabilité imposées par l'AI Act européen pour les systèmes d'IA à haut risque dans les secteurs régulés (santé, finance, véhicules autonomes).

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic