OutilsAWS ML Blog · 21 avr. 2026, 19:43· 2 min de lecture

Traçabilité de bout en bout avec DVC et Amazon SageMaker AI MLflow

Les équipes de machine learning en production font face à un problème récurrent : retracer précisément l'origine d'un modèle déployé. Quelle version du jeu de données l'a entraîné ? Peut-on reproduire à l'identique un modèle mis en production il y a six mois ? Amazon Web Services propose une réponse concrète en combinant trois outils : DVC (Data Version Control), Amazon SageMaker AI et SageMaker AI MLflow Apps. L'architecture s'articule en quatre étapes : un job SageMaker Processing prétraite les données brutes et les versionne via DVC en les poussant vers Amazon S3 ; un job SageMaker Training clone le dépôt DVC à un tag Git précis, récupère le dataset exact via dvc pull, entraîne le modèle et enregistre tout dans MLflow. Chaque run MLflow stocke un identifiant datagitcommit_id, soit le hash DVC pointant vers le dataset exact dans S3. Le modèle entraîné est ensuite enregistré dans le MLflow Model Registry et peut être déployé sur un endpoint SageMaker. La chaîne de traçabilité complète devient alors : modèle en production → run MLflow → commit DVC → dataset dans Amazon S3.

Cet enchaînement répond à un besoin critique dans les secteurs régulés : santé, services financiers, véhicules autonomes. Dans ces domaines, les exigences d'audit imposent de relier chaque modèle déployé à ses données d'entraînement précises, et de pouvoir exclure à la demande des enregistrements individuels des futurs cycles d'entraînement. Sans ce niveau de traçabilité, une question apparemment simple, "quelles données ont servi à entraîner le modèle actuellement en production ?", peut mobiliser plusieurs jours d'enquête dans des logs dispersés, des notebooks et des buckets S3. La solution proposée réduit ce risque opérationnel en rendant la traçabilité structurelle plutôt qu'optionnelle.

DVC est un outil open source gratuit qui étend Git pour gérer des datasets volumineux et des artefacts ML que Git seul ne peut pas versionner. MLflow, de son côté, assure le suivi des expériences, le registre des modèles et la lignée. Les deux outils couvrent chacun la moitié du problème de traçabilité, et leur combinaison ferme la boucle. L'implémentation requiert un compte AWS avec des permissions sur SageMaker, S3, CodeCommit et IAM, Python 3.11 ou 3.12, et le SDK SageMaker v3.4.0 minimum. Les notebooks utilisent AWS CodeCommit comme backend Git pour les métadonnées DVC, mais l'architecture est compatible avec GitHub, GitLab ou Bitbucket moyennant un simple remplacement de l'URL remote. AWS publie des notebooks d'accompagnement permettant de déployer les deux patterns décrits, traçabilité au niveau du dataset et traçabilité au niveau de l'enregistrement individuel, directement dans un compte AWS existant.

Impact France/UE

La traçabilité structurelle décrite répond directement aux exigences de documentation et d'auditabilité imposées par l'AI Act européen pour les systèmes d'IA à haut risque dans les secteurs régulés (santé, finance, véhicules autonomes).

Dans nos dossiers

AWS Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil

1 source

2AWS ML Blog

Monitoring des modèles de machine learning discriminatifs avec Amazon SageMaker AI et MLflow

Amazon Web Services a publié une architecture de référence pour surveiller en production les modèles de machine learning discriminatifs (classification et régression), combinant Amazon SageMaker AI, MLflow et la bibliothèque open source Evidently. Le constat de départ est simple : la précision d'un modèle commence à se dégrader dès la fin de son entraînement, sous l'effet de deux phénomènes distincts. Le premier, appelé dérive des données (data drift), correspond à un changement dans les propriétés statistiques des données d'entrée, par exemple une source de données amont qui change silencieusement le type d'une colonne, ou l'arrivée de nouvelles gammes de produits jamais vues à l'entraînement. Le second, la dérive de modèle (model drift), traduit une perte de justesse des prédictions parce que les motifs probabilistes appris ne correspondent plus à la réalité, un phénomène qui peut survenir par exemple lors d'un changement de comportement des consommateurs dû à une évolution économique. L'architecture proposée couvre tout le cycle de vie, de l'entraînement jusqu'au déploiement, avec un cas d'usage en inférence par lot : un job d'entraînement calcule les métriques du modèle et les stocke dans MLflow, le jeu de données de référence est conservé séparément dans un bucket Amazon S3, puis un job de transformation par lot exécute les prédictions en production dont les résultats sont eux aussi archivés dans S3. Cette approche répond à un besoin concret des équipes qui utilisent des services managés comme SageMaker AI mais qui ont besoin de davantage de flexibilité, que ce soit pour maîtriser les coûts sur l'ensemble du cycle de vie du modèle, pour surveiller des cas d'usage spécifiques non couverts par les outils managés standards, ou pour intégrer la surveillance de modèles dans des tableaux de bord et pipelines d'observabilité déjà existants dans l'entreprise. Concrètement, les résultats produits par cette chaîne de surveillance peuvent alimenter un tableau de bord personnalisé, déclencher des alertes vers des outils comme Slack pour prévenir les équipes concernées, ou même lancer automatiquement un pipeline de réentraînement du modèle dès qu'une dérive significative est détectée. Pour les organisations qui opèrent des modèles critiques en production, cette capacité à réagir avant que la baisse de performance ne devienne problématique représente un enjeu direct de fiabilité et de confiance envers les systèmes d'IA. Ce travail s'inscrit dans la distinction plus large qu'AWS établit entre le monitoring des modèles discriminatifs classiques et celui des grands modèles de langage génératifs, ces derniers faisant l'objet d'une architecture de surveillance séparée et dédiée sur les endpoints d'inférence temps réel de SageMaker AI. La démarche illustre une tendance de fond dans l'industrie du machine learning en production : au-delà du simple déploiement, la capacité à détecter automatiquement les dérives de données et de modèle devient un pilier de la gouvernance des systèmes d'IA, aux côtés des outils d'observabilité plus classiques qui surveillent la latence et la disponibilité des applications. En s'appuyant sur des briques open source comme Evidently plutôt que sur des solutions entièrement fermées, AWS laisse aux équipes techniques la liberté d'adapter la granularité et les métriques de surveillance à leurs propres exigences métier.

OutilsActu

1 source

3AWS ML Blog

Diffusion en continu des résultats de benchmarks et recommandations vers MLflow avec Amazon SageMaker AI

Amazon Web Services a annoncé l'intégration de MLflow avec les tâches de benchmarking et de recommandation d'inférence optimisée d'Amazon SageMaker AI, permettant de centraliser le suivi des expériences de test de modèles d'intelligence artificielle générative. Concrètement, lorsqu'un utilisateur soumet une tâche de recommandation d'inférence optimisée ou une tâche de benchmark sur SageMaker AI, les résultats sont désormais automatiquement transmis vers une application SageMaker MLflow choisie par l'équipe. La mise en place nécessite trois étapes : créer une application MLflow depuis Amazon SageMaker Studio, accorder les permissions nécessaires en ajoutant le droit sagemaker-mlflow:* au rôle d'exécution de la tâche via l'ARN de l'application MLflow, puis transmettre la configuration MlflowConfig lors de la création de la tâche de benchmark ou de recommandation. Plusieurs tâches peuvent être rattachées à une même expérience MLflow, ce qui permet ensuite de les comparer côte à côte directement dans l'interface, par exemple pour évaluer les performances du modèle qwen2-0.5b sur une instance ml.g4dn.12xlarge face à une instance ml.p4d.24xlarge. Cette nouveauté répond à un problème concret pour les équipes qui déploient des modèles d'IA générative en production : elles doivent souvent tester des dizaines de combinaisons de types d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation comme le décodage spéculatif, un processus qui peut prendre des semaines et se solde généralement par une compilation manuelle et fastidieuse des résultats. Avec cette intégration, les métriques de latence et de débit sont désormais diffusées en temps réel dans l'interface MLflow au fur et à mesure que chaque configuration est testée, ce qui permet de surveiller des tâches qui durent parfois plusieurs heures et d'interrompre un test si le débit ne correspond pas aux attentes, plutôt que d'attendre la fin complète du processus. Chaque exécution conserve aussi une trace complète et interrogeable pendant des mois, incluant les paramètres, les horodatages, les métriques par étape et les artefacts produits, ce qui facilite l'identification des configurations à l'origine de gains de performance. Cette annonce s'inscrit dans la stratégie plus large d'AWS visant à simplifier l'optimisation de l'inférence des modèles d'IA générative, un chantier lancé avec les recommandations d'inférence optimisées de SageMaker AI destinées à remplacer les approches par essais-erreurs manuels par une méthode guidée et fondée sur les données. L'enjeu dépasse la seule commodité technique : dans un contexte où le coût du calcul GPU reste un facteur déterminant pour la rentabilité des déploiements d'IA générative, disposer d'un référentiel unique et partagé des expériences testées réduit la duplication des efforts entre équipes, améliore la gouvernance des projets et facilite les transmissions entre collègues ou entre équipes travaillant en horaires décalés. Cette évolution illustre aussi la tendance du secteur à intégrer des outils d'observabilité et de MLOps, comme MLflow, directement dans les plateformes cloud managées, afin de répondre à la demande croissante de traçabilité et de reproductibilité dans les cycles d'entraînement et de déploiement des modèles.

OutilsOutil

1 source

4AWS ML Blog

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire. L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée. Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

UEMistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

OutilsTuto

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic