Aller au contenu principal
L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible
OutilsAWS ML Blog14sem· 1 min de lecture

L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible

Source originale ↗·

AWS et la communauté open source llm-d annoncent la disponibilité de l'inférence désagrégée sur AWS, une avancée majeure pour le déploiement à grande échelle des modèles de langage. Cette collaboration, menée avec l'appui de Red Hat, aboutit à la mise à disposition d'un conteneur dédié — ghcr.io/llm-d/llm-d-aws — intégrant les bibliothèques spécifiques à l'infrastructure AWS, notamment l'Elastic Fabric Adapter (EFA) et libfabric.

À mesure que l'IA passe de la phase de prototypage à un déploiement industriel, l'inférence devient le goulot d'étranglement central. Les modèles raisonnants et agentiques génèrent désormais 10 fois plus de tokens que les systèmes à réponse directe, créant une charge variable et exponentielle qui dégrade les performances. L'inférence désagrégée répond à ce défi en séparant physiquement les deux phases du processus : la phase prefill (fortement liée au calcul) et la phase decode (fortement liée à la mémoire), permettant d'allouer des ressources GPU adaptées à chacune.

llm-d est un framework Kubernetes-natif construit au-dessus de vLLM, enrichi d'orchestration de niveau production, de planification avancée des requêtes et de support pour les interconnexions haute performance. La nouvelle intégration avec la bibliothèque NIXL permet notamment l'inférence multi-nœuds désagrégée et le parallélisme d'experts. Le tout est disponible sur Amazon SageMaker HyperPod et Amazon Elastic Kubernetes Service (EKS), après plusieurs mois de benchmarks itératifs pour garantir une version stable prête à l'emploi.

Cette initiative s'inscrit dans une tendance de fond : l'optimisation de l'inférence LLM devient un enjeu compétitif aussi important que l'entraînement des modèles eux-mêmes. En proposant des architectures de référence packagées — les well-lit paths — llm-d et AWS cherchent à démocratiser l'accès à ces optimisations avancées, jusqu'ici réservées aux équipes disposant d'une expertise infrastructure poussée.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés
1AWS ML Blog 

Amazon SageMaker AI : l'inférence asynchrone supporte désormais les payloads intégrés

Amazon a annoncé le 18 juin 2026 une mise à jour significative de SageMaker AI Async Inference : les développeurs peuvent désormais envoyer leurs données directement dans le corps de la requête API, sans passer par Amazon S3. Concrètement, le nouveau paramètre Body de l'API InvokeEndpointAsync accepte jusqu'à 128 000 octets de données brutes en ligne. La fonctionnalité est disponible dans 31 régions commerciales AWS, de l'Irlande au Japon en passant par le Brésil et l'Afrique du Sud. Les paramètres Body et InputLocation (l'ancien chemin S3) sont mutuellement exclusifs : l'API rejette toute requête qui tenterait d'utiliser les deux simultanément. Le comportement en sortie reste inchangé, les résultats étant toujours écrits vers le bucket S3 configuré en sortie. Cette évolution simplifie concrètement le quotidien des équipes qui utilisent l'inférence asynchrone pour des charges utiles légères nécessitant un temps de traitement long. Avant cette mise à jour, même une requête de quelques kilooctets imposait deux étapes obligatoires : uploader le fichier sur S3, puis déclencher l'appel API avec l'URI de l'objet. Cela impliquait de provisionner un bucket S3 dédié, de gérer les permissions IAM s3:PutObject, d'implémenter un schéma de nommage pour éviter les collisions de clés, et de prévoir une stratégie de nettoyage des objets périmés. La suppression de ce aller-retour réseau réduit la latence, diminue les coûts S3 sur les charges de faible volume, et allège le code client de plusieurs dizaines de lignes de configuration. SageMaker Async Inference existe pour répondre à un besoin précis : traiter des requêtes pouvant prendre de quelques secondes à plusieurs minutes, avec prise en charge du passage automatique à zéro instance pour les workloads intermittents. La contrainte S3 avait été conçue à l'origine pour les gros payloads, images, fichiers audio ou documents multi-mégaoctets, où le stockage intermédiaire reste pertinent. Mais à mesure que les cas d'usage se sont diversifiés, notamment pour des pipelines de traitement de texte, de génération augmentée par récupération ou de classification légère nécessitant davantage de temps de calcul que ne le permet l'inférence temps réel, la friction S3 est devenue un point de friction disproportionné. Cette mise à jour aligne l'expérience développeur de l'async sur celle de l'inférence synchrone, tout en préservant la compatibilité avec les endpoints existants, sans modification du modèle ni du conteneur.

UELes développeurs européens utilisant SageMaker Async Inference, notamment via la région eu-west-1 (Irlande), peuvent désormais envoyer des payloads légers directement dans l'API sans passer par S3, simplifiant leurs pipelines et réduisant les coûts de stockage intermédiaire.

OutilsOutil
1 source
Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart
2AWS ML Blog 

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

Amazon Web Services vient d'annoncer la disponibilité de NEXUS, le modèle de fondation développé par la startup Fundamental, sur Amazon SageMaker JumpStart. NEXUS est un "Large Tabular Model" conçu spécifiquement pour les données structurées -- tableurs, bases de données relationnelles, systèmes ERP et CRM -- là où réside la majorité des données critiques des entreprises. Contrairement aux LLMs classiques, il a été pré-entraîné sur des milliards de tâches de prédiction réelles issues de datasets structurés. Il peut être déployé en tant qu'endpoint SageMaker managé sur une instance ml.p5en.48xlarge équipée de 8 GPU NVIDIA H200, avec accès via un SDK Python compatible scikit-learn incluant des estimateurs NEXUSClassifier et NEXUSRegressor. NEXUS s'attaque à un problème concret que rencontrent quotidiennement les équipes data des grandes entreprises : générer des prédictions fiables à partir de données tabulaires prend habituellement entre trois et six mois de travail pour une équipe de data scientists, entre le feature engineering, l'entraînement, la validation et le déploiement. Fundamental promet de ramener ce délai à quelques jours. L'un des atouts clés du modèle est son architecture déterministe : là où les LLMs produisent des réponses différentes à des questions identiques, NEXUS garantit des résultats reproductibles pour chaque prédiction individuelle. Il gère nativement les nombres, catégories, dates et textes sans prétraitement manuel, tolère les données manquantes, traite des datasets de plusieurs milliards de lignes sans troncature, et reconnaît que l'ordre des colonnes ne change pas la sémantique des données -- une propriété appelée permutation invariance, absente des architectures transformer classiques. Ce lancement s'inscrit dans une tendance plus large de spécialisation des modèles de fondation par type de données. Si les LLMs comme GPT-4 ou Claude ont démontré leur puissance sur le texte et les modèles de diffusion sur les images, les données tabulaires sont longtemps restées le terrain des approches ML traditionnelles -- gradient boosting, random forests -- ou de tentatives maladroites d'adapter des LLMs à des formats pour lesquels ils n'étaient pas conçus. La tokenisation numérique dans les LLMs introduit en effet des erreurs de contexte qui les rendent peu fiables sur des données structurées à haute précision. Fundamental parie que les données tabulaires méritent leur propre classe de modèles de fondation, et l'intégration avec SageMaker JumpStart lui donne accès à l'écosystème cloud d'AWS pour une diffusion à grande échelle auprès des entreprises. Le modèle est distribué via AWS Marketplace, positionnant clairement Fundamental sur le marché B2B des outils data enterprise.

OutilsOutil
1 source
3AWS ML Blog 

Le Spring AI SDK pour Amazon Bedrock AgentCore est désormais en disponibilité générale

Amazon a rendu disponible en accès général le Spring AI SDK pour Amazon Bedrock AgentCore, une bibliothèque open source qui permet aux développeurs Java de construire et déployer des agents IA autonomes en production sur l'infrastructure d'AWS. Ce SDK s'intègre nativement dans l'écosystème Spring Boot 3.5 et Java 17 minimum, en exploitant les patterns familiers du framework : annotations, auto-configuration et advisors composables. Concrètement, un développeur ajoute une dépendance au projet, annote une méthode, et le SDK prend en charge tout le reste, de la gestion des endpoints jusqu'au streaming des réponses en temps réel. Jusqu'à présent, intégrer Amazon Bedrock AgentCore dans une application Spring représentait plusieurs semaines de travail d'infrastructure avant même d'écrire la moindre logique métier : il fallait implémenter manuellement les endpoints /invocations et /ping, gérer le streaming Server-Sent Events avec son protocole précis, configurer les health checks, le rate limiting, et connecter les advisors et les outils. Le SDK automatise entièrement ce contrat technique imposé par l'AgentCore Runtime. En particulier, il détecte automatiquement les tâches asynchrones longues et signale un statut "HealthyBusy" au runtime pour éviter qu'il ne retire des ressources pendant un traitement actif, un détail critique dans un modèle de facturation à l'usage où les temps d'inactivité ne sont pas facturés. Les équipes peuvent ainsi se concentrer sur la logique des agents plutôt que sur la plomberie infrastructure, et déployer des fonctionnalités comme la mémoire conversationnelle, l'automatisation de navigateur et l'exécution de code en sandbox. L'émergence de ce SDK s'inscrit dans une tendance de fond : les entreprises cherchent à passer des preuves de concept en IA générative à des systèmes agentiques véritablement opérationnels à grande échelle, capables de planifier et d'exécuter des tâches complexes en plusieurs étapes de manière autonome. AWS positionne Bedrock AgentCore comme une plateforme universelle, compatible avec n'importe quel framework et n'importe quel modèle. En ciblant spécifiquement la communauté Java et Spring, l'une des plus larges dans l'entreprise, Amazon ouvre un couloir direct vers la production pour des millions de développeurs backend qui auraient autrement dû franchir une barrière technique considérable. La concurrence dans ce segment est vive : Microsoft avec Azure AI, Google avec Vertex AI et des acteurs comme LangChain ou CrewAI proposent leurs propres abstractions pour les agents IA. La disponibilité générale du Spring AI AgentCore SDK marque une étape dans la maturité de l'outillage autour des agents IA en entreprise, où la gouvernance, la sécurité et la scalabilité deviennent des critères aussi importants que les capacités du modèle lui-même.

UELes développeurs Java et Spring Boot en Europe peuvent intégrer directement Amazon Bedrock AgentCore dans leurs projets sans semaines de travail d'infrastructure, accélérant la mise en production d'agents IA sur AWS.

OutilsOutil
1 source
Claude Opus 4.8 est désormais disponible sur AWS
4AWS ML Blog 

Claude Opus 4.8 est désormais disponible sur AWS

Anthropic a annoncé la disponibilité de Claude Opus 4.8, son modèle le plus avancé de la gamme Opus, sur Amazon Bedrock et sur la Claude Platform déployée sur AWS. Ce lancement permet aux équipes de développement d'intégrer le modèle directement dans leurs environnements AWS existants, tout en bénéficiant des garanties de sécurité entreprise, de résidence régionale des données et de la scalabilité d'infrastructure propres à Amazon. Pour les cas d'usage ne nécessitant pas de résidence régionale, le modèle est également accessible via la plateforme native d'Anthropic hébergée sur AWS. Techniquement, l'accès se fait via le SDK Anthropic avec l'identifiant de modèle us.anthropic.claude-opus-4-8, ou via les API Invoke et Converse d'Amazon Bedrock. Ce qui distingue Opus 4.8 de ses prédécesseurs, c'est sa capacité à maintenir un plan d'action sur plusieurs étapes successives, à suivre ce qui a été accompli et ce qui reste à faire, et surtout à se recorriger lorsqu'un blocage survient plutôt que de simplement s'arrêter sur une erreur. Pour les équipes qui automatisent des tâches longues et complexes, cette stabilité se traduit concrètement par moins de variance dans les sorties, moins de cycles de révision manuelle, et une supervision réduite des pipelines en production. En développement logiciel, le modèle est conçu pour naviguer dans de vraies bases de code, planifier avant d'éditer, et conserver le contexte sur des sessions prolongées. Les cas d'usage industriels ciblés incluent la recherche d'investissement et l'analyse de résultats financiers, la rédaction de contrats et de mémoires juridiques, la synthèse de littérature scientifique et de soumissions réglementaires en sciences du vivant, ainsi que l'analyse de menaces et la réponse à incident en cybersécurité. Ce lancement s'inscrit dans une stratégie de partenariat approfondi entre Anthropic et AWS, qui s'est notamment matérialisée par un investissement d'Amazon pouvant atteindre quatre milliards de dollars dans Anthropic. La disponibilité sur Bedrock est stratégique pour Anthropic, qui cherche à s'imposer comme fournisseur de référence pour les déploiements en entreprise, face à la concurrence directe d'OpenAI via Azure et de Google DeepMind via Vertex AI. Opus 4.8 représente le haut de gamme de la nouvelle génération Claude 4, une famille de modèles qui comprend également Sonnet 4.6 et Haiku 4.5, chacun positionné sur un équilibre différent entre performance et coût d'inférence. La prochaine étape pour Anthropic sera probablement d'élargir la disponibilité régionale du modèle sur Bedrock, et d'affiner ses capacités dans les domaines où la régulation de l'IA évolue rapidement.

UELes entreprises européennes peuvent déployer Claude Opus 4.8 sur Amazon Bedrock avec résidence régionale des données, facilitant la conformité RGPD pour les cas d'usage en production.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic