
Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés
Amazon a annoncé le 18 juin 2026 une mise à jour significative de SageMaker AI Async Inference : les développeurs peuvent désormais envoyer leurs données directement dans le corps de la requête API, sans passer par Amazon S3. Concrètement, le nouveau paramètre Body de l'API InvokeEndpointAsync accepte jusqu'à 128 000 octets de données brutes en ligne. La fonctionnalité est disponible dans 31 régions commerciales AWS, de l'Irlande au Japon en passant par le Brésil et l'Afrique du Sud. Les paramètres Body et InputLocation (l'ancien chemin S3) sont mutuellement exclusifs : l'API rejette toute requête qui tenterait d'utiliser les deux simultanément. Le comportement en sortie reste inchangé, les résultats étant toujours écrits vers le bucket S3 configuré en sortie.
Cette évolution simplifie concrètement le quotidien des équipes qui utilisent l'inférence asynchrone pour des charges utiles légères nécessitant un temps de traitement long. Avant cette mise à jour, même une requête de quelques kilooctets imposait deux étapes obligatoires : uploader le fichier sur S3, puis déclencher l'appel API avec l'URI de l'objet. Cela impliquait de provisionner un bucket S3 dédié, de gérer les permissions IAM s3:PutObject, d'implémenter un schéma de nommage pour éviter les collisions de clés, et de prévoir une stratégie de nettoyage des objets périmés. La suppression de ce aller-retour réseau réduit la latence, diminue les coûts S3 sur les charges de faible volume, et allège le code client de plusieurs dizaines de lignes de configuration.
SageMaker Async Inference existe pour répondre à un besoin précis : traiter des requêtes pouvant prendre de quelques secondes à plusieurs minutes, avec prise en charge du passage automatique à zéro instance pour les workloads intermittents. La contrainte S3 avait été conçue à l'origine pour les gros payloads, images, fichiers audio ou documents multi-mégaoctets, où le stockage intermédiaire reste pertinent. Mais à mesure que les cas d'usage se sont diversifiés, notamment pour des pipelines de traitement de texte, de génération augmentée par récupération ou de classification légère nécessitant davantage de temps de calcul que ne le permet l'inférence temps réel, la friction S3 est devenue un point de friction disproportionné. Cette mise à jour aligne l'expérience développeur de l'async sur celle de l'inférence synchrone, tout en préservant la compatibilité avec les endpoints existants, sans modification du modèle ni du conteneur.
Les développeurs européens utilisant SageMaker Async Inference, notamment via la région eu-west-1 (Irlande), peuvent désormais envoyer des payloads légers directement dans l'API sans passer par S3, simplifiant leurs pipelines et réduisant les coûts de stockage intermédiaire.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




