OutilsAWS ML Blog · 14 avr. 2026, 21:14· 2 min de lecture

Déploiements par cas d'usage sur SageMaker JumpStart

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker.

Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving.

Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

Impact France/UE

Les entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

Dans nos dossiers

AWS Microsoft Azure Google Cloud

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Déploiement de modèles quantifiés sur Amazon SageMaker AI avec Unsloth

Déployer des modèles quantifiés en production coûte cher lorsqu'ils restent en pleine précision 16 bits (BF16 ou FP16), car cela impose des instances GPU volumineuses et ralentit les cycles d'itération. Amazon Web Services a publié, avec Unsloth, un article co-écrit par Daniel Han et Michael Han détaillant comment déployer des modèles quantifiés dynamiquement sur son infrastructure. Unsloth propose une méthode appelée quantification dynamique, qui ne réduit pas uniformément la précision de toutes les couches d'un modèle. Selon Daniel Han, cofondateur d'Unsloth, un modèle nécessitant initialement 1,5 To de mémoire peut être ramené à 217 Go grâce à cette technique, soit une réduction de 86 % de la taille, pour seulement 14 % de perte de précision. Concrètement, un modèle standard utilise 16 bits par paramètre ; une quantification à 4 bits réduit la taille de 75 %, ce qui fait passer un modèle de 8 milliards de paramètres d'environ 16 Go à environ 5 Go. Le processus se déroule en trois étapes : une analyse couche par couche pour mesurer la sensibilité de chacune à la perte de précision, une allocation dynamique du nombre de bits qui conserve une précision élevée (par exemple 16 bits) pour les couches critiques tout en compressant fortement les autres (4 bits ou moins), puis un réglage fin pour que la qualité globale reste proche de l'original malgré la compression. Cette approche change trois paramètres essentiels au moment du déploiement sur AWS. D'abord le choix de l'instance : un modèle qui nécessitait auparavant plusieurs GPU peut désormais tourner sur un seul GPU, voire sur CPU. Ensuite, le profil de démarrage et de stockage : des fichiers de modèle plus légers se déplacent, se stockent et se déploient plus rapidement entre environnements. Enfin, la flexibilité de déploiement : les équipes peuvent choisir un fichier plus compact pour une inférence sensible aux coûts, une version plus fidèle pour les cas exigeant une haute qualité, ou une représentation fusionnée pour un débit plus élevé. Pour les entreprises qui opèrent des modèles de fondation à grande échelle, ces gains de mémoire et de coût peuvent se traduire par des économies substantielles sur la facture cloud. L'article présente quatre schémas de déploiement pour des modèles déjà quantifiés avec Unsloth sur l'infrastructure AWS : l'utilisation directe d'instances Amazon EC2, le service managé Amazon SageMaker AI pour l'inférence, ainsi qu'une intégration via Amazon EKS ou Amazon ECS lorsque l'inférence doit s'insérer dans une architecture de conteneurs existante. Cette publication s'inscrit dans une tendance plus large où les fournisseurs cloud et les éditeurs d'outils open source collaborent pour rendre les grands modèles de langage plus accessibles économiquement, alors que la course à des modèles toujours plus volumineux continue de faire grimper les coûts d'inférence pour les entreprises qui les déploient en production.

💬 Le chiffre qui compte : 86% de mémoire en moins pour seulement 14% de perte de précision, c'est le genre de ratio qui devrait faire revoir la facture GPU de pas mal de boîtes qui tournent des modèles en prod. Passer de plusieurs GPU à un seul, voire du CPU, ça change le calcul économique du déploiement, pas juste un détail d'ingé. Reste que la quantification dynamique demande une vraie analyse couche par couche en amont, donc c'est pas un bouton magique qu'on active en cinq minutes.

OutilsActu

1 source

2AWS ML Blog

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

Amazon Web Services vient d'annoncer la disponibilité de NEXUS, le modèle de fondation développé par la startup Fundamental, sur Amazon SageMaker JumpStart. NEXUS est un "Large Tabular Model" conçu spécifiquement pour les données structurées -- tableurs, bases de données relationnelles, systèmes ERP et CRM -- là où réside la majorité des données critiques des entreprises. Contrairement aux LLMs classiques, il a été pré-entraîné sur des milliards de tâches de prédiction réelles issues de datasets structurés. Il peut être déployé en tant qu'endpoint SageMaker managé sur une instance ml.p5en.48xlarge équipée de 8 GPU NVIDIA H200, avec accès via un SDK Python compatible scikit-learn incluant des estimateurs NEXUSClassifier et NEXUSRegressor. NEXUS s'attaque à un problème concret que rencontrent quotidiennement les équipes data des grandes entreprises : générer des prédictions fiables à partir de données tabulaires prend habituellement entre trois et six mois de travail pour une équipe de data scientists, entre le feature engineering, l'entraînement, la validation et le déploiement. Fundamental promet de ramener ce délai à quelques jours. L'un des atouts clés du modèle est son architecture déterministe : là où les LLMs produisent des réponses différentes à des questions identiques, NEXUS garantit des résultats reproductibles pour chaque prédiction individuelle. Il gère nativement les nombres, catégories, dates et textes sans prétraitement manuel, tolère les données manquantes, traite des datasets de plusieurs milliards de lignes sans troncature, et reconnaît que l'ordre des colonnes ne change pas la sémantique des données -- une propriété appelée permutation invariance, absente des architectures transformer classiques. Ce lancement s'inscrit dans une tendance plus large de spécialisation des modèles de fondation par type de données. Si les LLMs comme GPT-4 ou Claude ont démontré leur puissance sur le texte et les modèles de diffusion sur les images, les données tabulaires sont longtemps restées le terrain des approches ML traditionnelles -- gradient boosting, random forests -- ou de tentatives maladroites d'adapter des LLMs à des formats pour lesquels ils n'étaient pas conçus. La tokenisation numérique dans les LLMs introduit en effet des erreurs de contexte qui les rendent peu fiables sur des données structurées à haute précision. Fundamental parie que les données tabulaires méritent leur propre classe de modèles de fondation, et l'intégration avec SageMaker JumpStart lui donne accès à l'écosystème cloud d'AWS pour une diffusion à grande échelle auprès des entreprises. Le modèle est distribué via AWS Marketplace, positionnant clairement Fundamental sur le marché B2B des outils data enterprise.

OutilsOutil

1 source

3AWS ML Blog

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil

1 source

4AWS ML Blog

« Lancement d'une interface pour les recommandations d'inférence en IA générative sur Amazon SageMaker AI »

Amazon vient d'ajouter une interface graphique dans Amazon SageMaker AI Studio pour ses recommandations d'inférence dédiées à l'intelligence artificielle générative, un outil sans code qui s'appuie sur une API lancée en avril 2026. Cette fonctionnalité, accessible depuis le menu Jobs puis Inference optimization, guide les équipes à travers un parcours complet : configuration de la charge de travail, optimisation, sélection du modèle et déploiement. Quatre profils prédéfinis couvrent les cas d'usage courants : Interact pour les échanges de type conversationnel avec des entrées courtes, Generate pour la génération de contenu long, Summarize pour le résumé de documents avec un fort ratio entrée/sortie, et un profil Custom pour importer son propre jeu de données. Les utilisateurs choisissent aussi un objectif d'optimisation parmi trois options : minimiser la latence pour les applications interactives, maximiser le débit de tokens par seconde pour les traitements par lots, ou minimiser le coût pour les charges de production à grande échelle. Les modèles peuvent provenir du catalogue SageMaker JumpStart, d'un fichier stocké sur Amazon S3, d'un registre de modèles existant ou d'un déploiement antérieur. Cette évolution s'attaque à un problème concret pour les équipes qui mettent des modèles génératifs en production : trouver la bonne combinaison entre type d'instance, conteneur de service et stratégie d'optimisation exigeait jusqu'ici un long cycle d'essais et de benchmarks manuels, souvent réservé à des ingénieurs spécialisés en infrastructure. Avec cette interface, ce processus se réduit à quelques minutes pour les charges de travail courantes et à quelques heures pour les configurations sur mesure. Les ingénieurs en machine learning peuvent désormais valider un déploiement sans écrire une ligne de code, tandis que les responsables techniques disposent d'une vue comparative directe des compromis entre coût et performance, ce qui accélère la prise de décision côté produit comme côté infrastructure. L'API sous-jacente, lancée quelques mois plus tôt, offrait déjà un accès programmatique à ces recommandations, mais elle supposait que l'utilisateur sache quels paramètres régler et comment interpréter des résultats de benchmark bruts. L'interface graphique supprime cette barrière technique en s'appuyant sur des profils d'usage préconfigurés et des comparaisons visuelles des résultats, ouvrant l'accès à des équipes moins expertes en infrastructure cloud. Les utilisateurs avancés conservent la possibilité de passer par l'API pour des réglages fins. Ce choix s'inscrit dans une tendance plus large chez les fournisseurs de cloud à simplifier le déploiement de modèles d'IA générative, à mesure que la demande d'infrastructures optimisées en coût et en performance s'intensifie face à la multiplication des modèles disponibles.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic