Aller au contenu principal
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
OutilsAWS ML Blog13sem· 1 min de lecture

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Source originale ↗·

Amazon Web Services vient de détailler une intégration permettant d'affiner des modèles de langage directement depuis des données non structurées stockées dans Amazon S3, en s'appuyant sur Amazon SageMaker Unified Studio. La démonstration s'appuie sur le modèle Llama 3.2 11B Vision Instruct de Meta, appliqué à des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou des documents scannés.

Cette intégration représente une avancée notable pour les équipes de data science et de machine learning qui travaillent avec des volumes importants de données brutes. Elle supprime la friction habituelle entre la couche de stockage et la couche d'entraînement, permettant une orchestration end-to-end — ingestion, prétraitement, entraînement, évaluation — au sein d'un même environnement unifié. Pour les entreprises ayant déjà massivement investi dans S3 comme lac de données, le passage à l'affinage de modèles devient considérablement plus accessible.

Sur le plan technique, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 lignes de données d'entraînement associant images, questions et réponses attendues. Le modèle de base atteint un score ANLS de 85,3 % — une métrique mesurant la similarité entre les réponses prédites et les réponses de référence. Trois versions affinées sont ensuite produites avec des volumes variables (1 000, 5 000 et 10 000 images), et leur performance est suivie via Amazon SageMaker MLflow en mode serverless. L'infrastructure d'entraînement repose sur des instances p4de.24xlarge, nécessitant une demande d'augmentation de quota auprès d'AWS.

Cette publication s'inscrit dans la stratégie d'AWS de démocratiser le fine-tuning de grands modèles en abaissant les barrières d'accès, notamment pour les équipes sans expertise MLOps approfondie. En centralisant catalogage, gouvernance des données et entraînement dans SageMaker Unified Studio, le cloud américain renforce sa position face aux offres concurrentes de Google Vertex AI et Microsoft Azure AI Foundry.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Créer des agents Strands avec les modèles SageMaker AI et MLflow
1AWS ML Blog 

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil
1 source
Construire un système de détection des éruptions solaires sur SageMaker AI avec des réseaux LSTM et les données ESA STIX
2AWS ML Blog 

Construire un système de détection des éruptions solaires sur SageMaker AI avec des réseaux LSTM et les données ESA STIX

Amazon Web Services propose une solution de détection automatique des éruptions solaires en combinant les réseaux de neurones LSTM (Long Short-Term Memory) et les données du spectromètre STIX de l'Agence spatiale européenne (ESA), le tout déployé sur la plateforme SageMaker AI. Le système analyse les émissions de rayons X solaires sur trois bandes d'énergie distinctes : basse (4–10 keV), moyenne (10–25 keV) et haute (25+ keV). Concrètement, l'architecture repose sur deux algorithmes complémentaires : le Random Cut Forest (RCF), un algorithme d'apprentissage non supervisé qui attribue des scores d'anomalie selon la densité des points de données, et le réseau LSTM, capable de mémoriser des dépendances temporelles sur de longues séquences — une propriété rare dans les réseaux de neurones classiques. L'instrument STIX, embarqué sur la sonde Solar Orbiter lancée par l'ESA, collecte en continu des volumes massifs de mesures X que ce pipeline est conçu à ingérer et analyser à grande échelle. L'enjeu est considérable : les éruptions solaires perturbent les communications radio, dégradent les orbites satellitaires et peuvent mettre en danger les astronautes. Une détection précoce et fiable conditionne directement la protection des infrastructures spatiales et des réseaux électriques terrestres. L'approche multi-canal apporte ici une valeur ajoutée concrète — les canaux basse énergie captent les phénomènes précurseurs, tandis que les canaux haute énergie trahissent les pics d'intensité les plus violents. Grâce aux propriétés de mémoire à long terme du LSTM, le modèle peut identifier des schémas d'évolution sur des périodes étendues, là où des méthodes statistiques classiques échoueraient. Pour les opérateurs de satellites commerciaux et les agences spatiales, cela se traduit par une fenêtre d'alerte élargie pour mettre en mode sécurisé les équipements sensibles. Cette publication s'inscrit dans une tendance plus large : l'application du machine learning à la physique solaire connaît une accélération marquée depuis que le volume de données issues des observatoires spatiaux dépasse les capacités d'analyse humaine. L'ESA et la NASA multiplient les missions dédiées à la météorologie spatiale — Solar Orbiter, Parker Solar Probe — générant des flux de mesures sans précédent. AWS, de son côté, cherche à positionner SageMaker comme la plateforme de référence pour les applications scientifiques à fort volume de données, en proposant des exemples concrets dans des domaines aussi variés que la climatologie ou l'astrophysique. La prochaine étape logique serait l'intégration de ce système dans des pipelines d'alerte opérationnels en temps réel, potentiellement couplés aux centres de prévision météorologique spatiale comme le Space Weather Prediction Center de la NOAA.

UEL'ESA est directement impliquée via l'instrument STIX de Solar Orbiter, et les opérateurs de satellites européens pourraient exploiter ce type de pipeline pour protéger leurs infrastructures face aux éruptions solaires.

OutilsOutil
1 source
Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM
3AWS ML Blog 

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire. L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée. Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

UEMistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

OutilsTuto
1 source
Amazon SageMaker Feature Store accélère les pipelines ML avec de nouvelles fonctionnalités
4AWS ML Blog 

Amazon SageMaker Feature Store accélère les pipelines ML avec de nouvelles fonctionnalités

Amazon Web Services a annoncé le 16 avril 2026 trois nouvelles fonctionnalités pour SageMaker Feature Store, son dépôt managé dédié au stockage et au partage de features pour les modèles de machine learning. Ces nouveautés sont disponibles dès la version 3.8.0 du SDK Python SageMaker. La première est une intégration native avec AWS Lake Formation, qui permet d'appliquer automatiquement des contrôles d'accès granulaires, au niveau colonne, ligne et cellule, dès la création d'un groupe de features, sans configuration manuelle préalable. La deuxième porte sur la gestion du cycle de vie des métadonnées Apache Iceberg, avec de nouveaux paramètres pour contrôler la rétention des snapshots et éviter l'accumulation de fichiers. La troisième est la modernisation du SDK lui-même : architecture modulaire, performances améliorées, suppression des dépendances lourdes comme PyTorch, pour une installation plus rapide dans des environnements plus légers. Ces changements répondent à deux problèmes opérationnels concrets que rencontrent les équipes ML en production. Sur la question des coûts d'abord : une équipe d'analytique retail citée par AWS a accumulé plus de 50 téraoctets de fichiers de métadonnées Iceberg en moins d'un an sur Amazon S3, générant des frais inattendus et substantiels. Les nouvelles propriétés de table permettent de définir des politiques de rétention directement à la création du groupe de features, ou de les appliquer rétroactivement sur des groupes existants. Sur la question des accès ensuite : les équipes infrastructure réclamaient un contrôle des permissions qui s'active automatiquement, sans passer par des configurations répétitives après coup. L'intégration Lake Formation répond précisément à cela, en vérifiant l'existence d'au moins un Data Lake Administrator dans le compte avant d'activer le contrôle d'accès. SageMaker Feature Store existe depuis 2020 comme composant central de la plateforme ML d'AWS, permettant de stocker des features calculées une fois et de les réutiliser à travers plusieurs modèles et équipes. L'adoption du format Apache Iceberg pour le stockage offline avait apporté des gains en termes de requêtes et de versioning, mais avait aussi introduit ce problème de prolifération de métadonnées qui n'était pas anticipé à grande échelle. La prise en charge complète dans le SDK v3, qui inclut la gestion du cycle de vie des groupes, les opérations sur les enregistrements, et l'ingestion depuis Pandas et Spark, signale qu'AWS consolide son infrastructure ML autour de cette version modernisée. Pour les équipes qui font tourner des pipelines de features en production à haute fréquence, ces ajustements peuvent représenter des économies significatives et une réduction de la friction opérationnelle.

UEImpact indirect pour les entreprises européennes opérant des pipelines ML en production, qui peuvent bénéficier de réductions de coûts de stockage et d'une gouvernance des accès simplifiée.

OutilsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic