
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
Amazon Web Services vient de détailler une intégration permettant d'affiner des modèles de langage directement depuis des données non structurées stockées dans Amazon S3, en s'appuyant sur Amazon SageMaker Unified Studio. La démonstration s'appuie sur le modèle Llama 3.2 11B Vision Instruct de Meta, appliqué à des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou des documents scannés.
Cette intégration représente une avancée notable pour les équipes de data science et de machine learning qui travaillent avec des volumes importants de données brutes. Elle supprime la friction habituelle entre la couche de stockage et la couche d'entraînement, permettant une orchestration end-to-end — ingestion, prétraitement, entraînement, évaluation — au sein d'un même environnement unifié. Pour les entreprises ayant déjà massivement investi dans S3 comme lac de données, le passage à l'affinage de modèles devient considérablement plus accessible.
Sur le plan technique, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 lignes de données d'entraînement associant images, questions et réponses attendues. Le modèle de base atteint un score ANLS de 85,3 % — une métrique mesurant la similarité entre les réponses prédites et les réponses de référence. Trois versions affinées sont ensuite produites avec des volumes variables (1 000, 5 000 et 10 000 images), et leur performance est suivie via Amazon SageMaker MLflow en mode serverless. L'infrastructure d'entraînement repose sur des instances p4de.24xlarge, nécessitant une demande d'augmentation de quota auprès d'AWS.
Cette publication s'inscrit dans la stratégie d'AWS de démocratiser le fine-tuning de grands modèles en abaissant les barrières d'accès, notamment pour les équipes sans expertise MLOps approfondie. En centralisant catalogage, gouvernance des données et entraînement dans SageMaker Unified Studio, le cloud américain renforce sa position face aux offres concurrentes de Google Vertex AI et Microsoft Azure AI Foundry.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




