Aller au contenu principal
OutilsAWS ML Blog6sem

Déploiements par cas d'usage sur SageMaker JumpStart

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker.

Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving.

Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

Impact France/UE

Les entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative
1AWS ML Blog 

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil
1 source
Créer des agents Strands avec les modèles SageMaker AI et MLflow
2AWS ML Blog 

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil
1 source
Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick
3AWS ML Blog 

Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick

Amazon a dévoilé une architecture d'analyse de données intégrant de l'intelligence artificielle agentique sur Amazon SageMaker, combinant Amazon Athena et Amazon QuickSight pour permettre aux utilisateurs métier d'interroger des lacs de données complexes en langage naturel. La solution repose sur une architecture lakehouse construite à partir des jeux de données de référence TPC-H (100 Go hébergés sur S3), et s'appuie sur plusieurs couches technologiques : Amazon S3 comme stockage principal, AWS Glue pour le catalogage des métadonnées, Athena pour les requêtes SQL serverless, et QuickSight avec son moteur SPICE (Super-fast, Parallel, In-memory Calculation Engine) pour la visualisation et l'interface conversationnelle. Les données sont stockées en trois formats distincts, CSV, Apache Iceberg-Parquet avec support ACID et time-travel, et Amazon S3 Tables avec support natif Iceberg, afin d'illustrer la polyvalence d'une architecture data lake moderne. Un agent IA conversationnel, alimenté par des bases de connaissances enrichies via un crawler web, permet ensuite d'interroger ces données structurées et non structurées depuis une interface en langage naturel. L'enjeu principal est la démocratisation de l'accès aux données au sein des grandes organisations. Aujourd'hui, interroger un lac de données pétaoctet exige des compétences pointues en SQL, en modélisation de données et en outils de business intelligence, autant de barrières qui ralentissent la prise de décision dans des secteurs comme la finance, la santé, le retail ou la logistique. En substituant ces interfaces techniques par un agent conversationnel, Amazon permet à des profils non-techniques d'obtenir des insights directement exploitables sans passer par des équipes data. Pour les entreprises, cela signifie moins de goulots d'étranglement, des cycles d'analyse raccourcis, et une gouvernance des données maintenue grâce aux contrôles de sécurité intégrés dans l'écosystème AWS. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud, AWS, Google et Microsoft, pour intégrer des agents IA directement dans leurs plateformes analytiques. Amazon capitalise ici sur son écosystème existant : QuickSight Q, lancé il y a plusieurs années comme interface NLP pour la BI, monte en puissance avec l'intégration de bases de connaissances et d'espaces collaboratifs (Quick Spaces). La combinaison d'Athena, qui facture à la requête sans serveur à maintenir, et d'agents capables de mélanger données structurées et documentation non structurée, positionne AWS comme un acteur sérieux dans l'analytics agentique d'entreprise. La prochaine étape logique sera l'automatisation complète du cycle analyse-décision-action, où l'agent ne se contente plus de répondre mais déclenche directement des workflows métier.

UELes entreprises européennes déployées sur AWS peuvent adopter cette architecture d'analytics agentique pour réduire leur dépendance aux équipes data, mais l'annonce ne cible pas spécifiquement le marché ou les régulations européennes.

OutilsOutil
1 source
4Le Big Data 

Agents IA autonomes : définition, fonctionnement et cas d’usage en entreprise

En 2026, les entreprises ne se limitent plus à utiliser l'intelligence artificielle pour générer du contenu : elles lui confient désormais des pans entiers de leur exécution opérationnelle. Les agents IA autonomes représentent cette nouvelle catégorie de systèmes capables d'atteindre des objectifs complexes sans supervision humaine constante. Contrairement à un chatbot classique comme ChatGPT qui attend une instruction pour produire un texte ou une image, un agent reçoit une intention globale et agit en conséquence : si on lui demande d'organiser un voyage d'affaires, il recherche les vols, compare les hôtels et effectue les réservations de lui-même. Ces systèmes fonctionnent selon une boucle logique permanente, perception, raisonnement, action, apprentissage, en s'appuyant sur des grands modèles de langage pour décider de la meilleure marche à suivre, et sur des outils comme des API, des navigateurs web ou des accès directs aux logiciels métier pour exécuter leurs décisions. L'impact concret pour les entreprises est avant tout économique et opérationnel. Ces agents travaillent sans interruption, traitent des volumes de données inaccessibles à un humain, et peuvent gérer de bout en bout des flux financiers, des chaînes logistiques ou des cycles de relation client, rédiger un e-mail, mettre à jour un CRM, déclencher un paiement. Leur mémoire persistante leur permet de capitaliser sur les interactions passées pour optimiser leurs actions futures, réduisant progressivement le besoin de supervision technique. La logique n'est plus celle d'un outil à piloter, mais d'un collaborateur proactif doté d'une capacité de raisonnement contextuel. De nombreuses applications métier devraient intégrer ces agents d'ici la fin de l'année 2026, ce qui en fait un impératif stratégique plutôt qu'une expérimentation. Cette évolution s'inscrit dans une transition plus large de l'IA générative vers ce qu'on appelle la « révolution agentique ». Pendant des années, les entreprises ont utilisé l'IA comme un assistant réactif ; la rupture consiste à lui déléguer une autonomie décisionnelle réelle sur des processus à enjeux. Mais cette agilité nouvelle soulève des défis de gouvernance sérieux : prolifération d'agents non supervisés, exposition des données sensibles aux outils tiers, traçabilité des décisions automatisées. Les acteurs qui tireront parti de ce tournant ne seront pas ceux qui accumulent le plus d'outils, mais ceux qui construisent une architecture IA solide, avec des garde-fous clairs sur ce que les agents sont autorisés à faire en leur nom. La question centrale pour les dirigeants n'est plus technique, elle est stratégique : jusqu'où laisser agir une entité qui possède sa propre logique d'exécution.

UELes entreprises européennes devront encadrer leur déploiement d'agents IA autonomes en conformité avec les exigences de traçabilité et de gouvernance imposées par l'AI Act.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour