Aller au contenu principal
InfrastructureAWS ML Blog8h· 2 min de lecture

La mise en cache des conteneurs dans Amazon SageMaker AI accélère le déploiement des modèles

Source originale ↗·

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité pour SageMaker AI : le cache des images de conteneurs lors des événements de mise à l'échelle. Concrètement, cette optimisation réduit jusqu'à 51 % la latence de démarrage lors du lancement de nouvelles instances, et jusqu'à 2x pour les modèles d'IA générative en conditions réelles. Pour illustrer le gain : avec le modèle Qwen3-8B (16 Go) sur une instance ml.g6.2xlarge et le conteneur LMI de SageMaker (17,7 Go compressé), la latence de démarrage passe de 525 secondes à 258 secondes. Avant le cache, le téléchargement de l'image depuis Amazon ECR prenait à lui seul 333 secondes, en parallèle du téléchargement des poids du modèle depuis S3 (168 secondes). Avec le cache, l'image est déjà disponible localement (0 seconde), et le téléchargement du modèle tombe à 77 secondes, la compétition pour la bande passante réseau étant éliminée.

L'enjeu est considérable pour les équipes qui déploient des modèles de langage en production. Lors d'un pic de trafic, chaque seconde de latence au démarrage d'une nouvelle instance se traduit directement en requêtes non servies ou en surcoût d'instances pré-chauffées. Les workloads d'IA générative sont particulièrement touchés car ils utilisent des conteneurs très volumineux, LMI (basé sur vLLM), vLLM natif, NVIDIA Triton, qui pouvaient représenter la majeure partie du temps d'initialisation. La fonctionnalité s'applique aux deux architectures d'endpoints SageMaker : les endpoints à modèle unique (où chaque nouvelle instance héberge sa propre copie du modèle) et les endpoints à composants d'inférence (où de nouvelles instances sont lancées uniquement quand aucune instance existante n'a la capacité suffisante). Si le cache est indisponible, SageMaker revient automatiquement au téléchargement depuis ECR, sans interruption de service.

Cette annonce s'inscrit dans une stratégie progressive d'AWS pour réduire la latence de mise à l'échelle sur SageMaker. La plateforme avait déjà introduit des métriques CloudWatch sub-minute permettant de détecter les besoins de scale-out jusqu'à 6 fois plus vite, ainsi qu'un cache de données par instance pour les composants d'inférence réutilisant des instances déjà en cours d'exécution. Mais ces solutions précédentes ne couvraient pas le cas où une toute nouvelle instance devait être lancée, le scénario le plus coûteux. Le cache de conteneurs comble précisément ce manque. Dans un contexte où la concurrence entre AWS, Google Cloud et Azure s'intensifie sur les performances d'inférence, cette optimisation renforce la position de SageMaker pour les déploiements LLM à grande échelle, notamment dans les entreprises qui font face à des pics de charge imprévisibles.

Impact France/UE

Les entreprises françaises et européennes déployant des LLMs sur Amazon SageMaker bénéficieront directement de cette réduction de latence au scale-out, sans configuration supplémentaire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte
2AWS ML Blog 

AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte

TGS, fournisseur de données géoscientifiques pour le secteur énergétique, a réduit le temps d'entraînement de ses modèles fondamentaux sismiques (SFM) de 6 mois à seulement 5 jours grâce à un partenariat avec le AWS Generative AI Innovation Center (GenAIIC). Ces modèles, basés sur une architecture Vision Transformer (ViT) avec entraînement par Masked AutoEncoder (MAE), analysent des données sismiques 3D complexes pour identifier des structures géologiques essentielles à l'exploration énergétique. L'infrastructure déployée repose sur Amazon SageMaker HyperPod, un cluster de 16 instances EC2 P5 équipées chacune de 8 GPU NVIDIA H200 avec 141 Go de mémoire HBM3e, 2 048 Go de RAM système et une connectivité réseau EFAv3 à 3 200 Gbps pour minimiser la latence entre les noeuds. Les données d'entraînement, plusieurs téraoctets, sont streamées directement depuis Amazon S3 sans couche de stockage intermédiaire. Cet accomplissement représente un changement de paradigme pour l'industrie pétrolière et gazière, où l'exploration géologique repose de plus en plus sur des modèles d'IA capables d'interpréter des volumes sismiques massifs. En passant de 6 mois à 5 jours par cycle d'entraînement, TGS peut désormais incorporer de nouvelles données beaucoup plus fréquemment et itérer rapidement sur ses modèles, ce qui se traduit directement en valeur pour ses clients. L'autre avancée majeure est l'extension de la fenêtre de contexte du modèle grâce à des techniques de parallélisme contextuel, permettant d'analyser des volumes 3D nettement plus grands qu'auparavant et de capturer simultanément les détails locaux et les structures géologiques à grande échelle, deux informations jusqu'ici difficiles à obtenir en un seul passage. Le projet s'inscrit dans une modernisation plus large de l'infrastructure AWS de TGS et illustre une tendance croissante dans les industries à forte intensité de données, comme l'énergie ou les géosciences, qui adoptent les modèles fondamentaux spécialisés pour remplacer les pipelines d'analyse traditionnels. L'entraînement distribué à grande échelle sur des données 3D volumétriques pose des défis spécifiques — temps GPU inactifs, goulots d'étranglement réseau, gestion des checkpoints sur des clusters multi-noeuds — que SageMaker HyperPod adresse avec une surveillance automatique de la santé des instances et une gestion résiliente des reprises. La collaboration entre TGS et l'équipe GenAIIC d'AWS ouvre la voie à des modèles sismiques de prochaine génération capables d'analyser des formations géologiques encore plus complexes, avec des implications directes sur l'efficacité et la précision de l'exploration pétrolière et gazière à l'échelle mondiale.

InfrastructureActu
1 source
Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI
3AWS ML Blog 

Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI

Amazon Web Services a mis en open source une nouvelle méthode d'inférence appelée P-EAGLE (Parallel-EAGLE), désormais intégrée nativement dans Amazon SageMaker JumpStart pour accélérer le déploiement de grands modèles de langage en production. Basée sur la technique du décodage spéculatif, P-EAGLE transforme une étape jusqu'ici séquentielle en opération entièrement parallèle : au lieu de générer les tokens candidats un par un via plusieurs passes successives, elle les prédit tous simultanément en une seule passe vers l'avant. Sur des GPU NVIDIA B200 avec quantification FP8, des benchmarks réalisés sur le modèle Qwen3-Coder-30B-A3B-Instruct montrent des gains allant jusqu'à 1,69x de débit supplémentaire par rapport à EAGLE-3, le framework de référence précédent. À une concurrence de 1, P-EAGLE avec K=11 tokens spéculatifs atteint 1 167 tokens de sortie par seconde, contre 955 pour EAGLE-3 et seulement 294 sans spéculation. Cette avancée répond à un problème concret qui freinait les déploiements à grande échelle : plus on voulait spéculer loin dans la séquence, plus la latence augmentait de façon linéaire, annulant une partie du gain. P-EAGLE casse cette contrainte en remplissant les positions intermédiaires avec des marqueurs appris, permettant de prédire plusieurs tokens à la fois sans coût séquentiel supplémentaire. Pour les entreprises qui servent des millions de requêtes quotidiennes sur des modèles de code ou de génération longue, un gain de 1,69x de débit se traduit directement en réduction de coûts d'infrastructure ou en capacité à absorber davantage de trafic sans redimensionner le parc de GPU. L'intégration dans SageMaker JumpStart simplifie encore l'adoption : les développeurs peuvent déployer un endpoint optimisé P-EAGLE sans gérer manuellement les kernels CUDA sous-jacents ni les configurations de serving distribué. Le décodage spéculatif existe depuis plusieurs années comme technique d'optimisation d'inférence, et EAGLE en était devenu l'implémentation la plus performante, avec EAGLE-3 introduisant des prédictions directes de tokens et la fusion de représentations issues de plusieurs couches du modèle cible. Mais toutes ces versions conservaient une limite architecturale fondamentale héritée de l'autoregressivité du modèle brouillon. AWS a contourné ce plafond avec P-EAGLE, qu'il a choisi de reverser à la communauté open source plutôt que d'en faire un avantage exclusif. La méthode s'inscrit dans une compétition intense entre fournisseurs cloud pour offrir l'inférence la plus rapide et la moins coûteuse, notamment sur les modèles de code et de raisonnement qui génèrent des séquences longues. Avec son intégration SageMaker, AWS positionne P-EAGLE comme la voie par défaut pour les déploiements de modèles open-weight en production, au moment où des modèles comme Qwen3 et leurs successeurs s'imposent comme alternatives sérieuses aux modèles propriétaires.

UELes équipes européennes déployant des grands modèles en production sur infrastructure cloud peuvent bénéficier indirectement d'une réduction des coûts d'inférence GPU.

InfrastructureActu
1 source
Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2
4AWS ML Blog 

Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2

Tomofun, la startup taïwanaise à l'origine de la caméra connectée Furbo, a migré une partie de son infrastructure d'inférence IA des instances GPU Amazon EC2 vers des instances EC2 Inf2, propulsées par les puces AWS Inferentia2 conçues en interne par Amazon. Le système Furbo analyse en temps réel les flux vidéo provenant de centaines de milliers de caméras domestiques pour détecter des comportements animaux précis, aboiements, courses, activités inhabituelles, et envoyer des alertes instantanées aux propriétaires. Le modèle central est BLIP (Bootstrapping Language-Image Pre-Training), un modèle vision-langage compilé via le SDK Neuron d'AWS pour s'exécuter nativement sur Inferentia2. L'architecture déployée s'appuie sur deux couches d'Auto Scaling EC2 derrière un Elastic Load Balancer : la première traite les requêtes API, la seconde héberge les conteneurs d'inférence. Amazon CloudFront achemine les images des caméras vers ce pipeline, tandis que CloudWatch surveille la latence, le débit et les taux d'erreur en continu. La motivation principale de cette migration est économique. L'inférence toujours active à grande échelle est fondamentalement différente de l'entraînement : elle ne nécessite pas la puissance brute des GPU, mais exige une disponibilité permanente et un coût par requête minimal. En remplaçant une partie des GPU par des instances Inf2, Tomofun réduit significativement ses dépenses d'infrastructure tout en maintenant la précision et le débit du modèle. La transition a été conçue pour être transparente : l'API Furbo peut désormais router les requêtes vers des conteneurs GPU ou Inferentia2 sans modifier la logique d'alerte en aval ni l'expérience utilisateur. Cette flexibilité permet aussi d'ajuster dynamiquement le mix en fonction de la charge et des coûts, ce qui est particulièrement précieux pour un service dont le trafic fluctue selon les heures de la journée dans de nombreux fuseaux horaires. Cette initiative s'inscrit dans une tendance plus large du marché cloud : les grandes plateformes développent leurs propres puces d'inférence, Inferentia2 chez AWS, TPU chez Google, et les futures puces de Meta, pour offrir une alternative moins coûteuse aux GPU Nvidia dans les déploiements de production à grande échelle. Pour les entreprises gérant des millions de requêtes d'inférence quotidiennes sur des modèles de vision stabilisés, l'argument économique des accélérateurs spécialisés devient difficile à ignorer. Le cas Tomofun illustre concrètement ce compromis : conserver les GPU pour la flexibilité et les pics, tout en basculant la charge de base vers Inferentia2. Avec la prolifération des objets connectés embarquant de l'IA en périphérie, ce modèle hybride pourrait devenir la norme pour les acteurs du secteur de la "pet tech" et plus largement de l'IoT intelligent.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic