Aller au contenu principal
OutilsAWS ML Blog1sem

L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible

1 source couvre ce sujet·Source originale ↗·
Résumé IA

AWS et l'équipe llm-d (avec le soutien de Red Hat) lancent une solution d'inférence disaggregée pour grands modèles de langage sur AWS, disponible via un nouveau conteneur `ghcr.io/llm-d/llm-d-aws` intégrant les librairies AWS (EFA, libfabric) et la bibliothèque NIXL. Cette approche sépare les phases de prefill (intensif en calcul) et de decode (intensif en mémoire) pour optimiser l'utilisation des GPU, réduire les coûts et améliorer les performances à grande échelle. La solution est déployable dès maintenant sur Amazon SageMaker HyperPod et Amazon EKS.

We thank Greg Pereira and Robert Shaw from Red Hat for their support in bringing llm-d to AWS. In the agentic and reasoning era, large language models (LLMs) generate 10x more tokens and compute through complex reasoning chains compared to single-shot replies. Agentic AI workflows also create highly variable demands and another exponential increase in processing, bogging down the inference process and degrading the user experience. As the world transitions from prototyping AI solutions to deploying AI at scale, efficient inference is becoming the gating factor. LLM inference consists of two distinct phases: prefill and decode . The prefill phase is compute bound. It processes the entire input prompt in parallel to generate the initial set of key-value (KV) cache entries. The decode phase is memory bound. It autoregressively generates one token at a time while requiring substantial memory bandwidth to access model weights and the ever-growing KV cache. Adding to this complexity, inference requests vary widely in computational requirements based on input and output length, making efficient resource utilization particularly challenging. Traditional approaches often involve deploying models on predetermined infrastructure and topology or using basic distributed strategies that don’t account for these unique phases of LLM inference. This leads to suboptimal resource utilization, with GPUs either underutilized or overloaded during different inference phases. While vLLM has emerged as a popular open source inference engine that improves efficiency through nearly continuous batching and PagedAttention, organizations deploying at scale still face challenges in orchestrating deployments and optimizing routing decisions across multiple nodes. We are announcing a joint effort with the llm-d team to bring powerful disaggregated inference capabilities to AWS so that customers can boost performance, maximize GPU utilization, and improve costs for serving large-scale inference workloads. This launch is the result of several months of close collaboration with the llm-d community to deliver a new container ghcr.io/llm-d/llm-d-aws that includes libraries that are specific to AWS, such as Elastic Fabric Adapter (EFA) and libfabric, along with integration of llm-d with the NIXL library to support critical features such as multi-node disaggregated inference and expert parallelism. We have also conducted extensive benchmarking through multiple iterations to arrive at a stable release that allows customers to access these powerful capabilities out of the box on AWS Kubernetes systems such as Amazon SageMaker HyperPod and Amazon Elastic Kubernetes Service (Amazon EKS). Throughout this blog post, we introduce the concepts behind next-generation inference capabilities, including disaggregated serving, intelligent request scheduling, and expert parallelism. We discuss their benefits and walk through how you can implement them on Amazon SageMaker HyperPod EKS to achieve significant improvements in inference performance, resource utilization, and operational efficiency. What is llm-d? llm-d is an open source, Kubernetes-native framework for distributed large language model (LLM) serving. Built on top of vLLM, llm-d extends the core inference engine with production-grade orchestration, advanced scheduling, and high-performance interconnect support to enable scalable, multi-node model serving. Rather than treating inference as a single-node execution problem, llm-d introduces architectural patterns for disaggregated serving—separating and improving stages such as prefill, decode, and KV-cache management across distributed GPU resources. This allows operators to efficiently use high-speed fabrics such as AWS Elastic Fabric Adapter (EFA), while maintaining compatibility with Kubernetes-native deployment workflows. To make these capabilities accessible, llm-d provides a set of well-lit paths—reference serving architectures that package proven optimization strategies for different performance, scalability, and workload goals: Intelligent inference scheduling While the intelligent scheduling example makes routing decisions based on other factors, such as queue depth, its unique approach to routing is that it attempts to guess the locality of requests in the KVcache, without requiring it to have visibility into the state of the KVCache. In a single-instance environment, engines like vLLM use Automatic Prefix Caching to reduce redundant computation by reusing prior KV cache entries, driving faster and more efficient performance. However, the moment you scale to a distributed, multi-replica environment, assumptions about which kvblocks exist on which GPUs can’t hold. Without awareness of the locality of requests in their intermediary states, requests might be routed to instances that lack relevant cached context, negating the benefits of prefix caching entirely. The llm-d scheduler addresses this by maintaining visibility into the cache state

À lire aussi

1The Verge AI1h

Le mode automatique de Claude Code d'Anthropic devient plus sûr

Anthropic a lancé un nouveau mode appelé « auto mode » pour Claude Code, son outil de codage assisté par IA. Cette fonctionnalité permet à l'agent de prendre des décisions autonomes concernant les permissions, sans nécessiter une validation manuelle constante de l'utilisateur. Elle s'adresse particulièrement aux développeurs qui souhaitent déléguer davantage de tâches à l'IA tout en conservant un filet de sécurité. L'enjeu est de taille : Claude Code peut agir de manière indépendante, ce qui présente des risques réels comme la suppression de fichiers, la fuite de données sensibles ou l'exécution d'instructions malveillantes. L'auto mode vise à combler le fossé entre une supervision permanente — jugée contraignante — et une autonomie totale jugée dangereuse. Concrètement, le système détecte et bloque les actions potentiellement risquées avant leur exécution, tout en proposant à l'agent une alternative plus sûre. Anthropic positionne ainsi Claude Code dans un segment en pleine expansion : les outils d'IA « agentiques » capables d'agir seuls sur un poste de travail, un marché où la gestion des risques devient un argument commercial différenciant.

OutilsOutil
1 source
2Blog du Modérateur1h

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
3NVIDIA AI Blog1h

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
4InfoQ AI1h

Podcast : [Vidéo] Systèmes agentiques sans chaos : premiers modèles opérationnels pour agents autonomes

Shweta Vohra et Joseph Stein consacrent un épisode de podcast à la question des systèmes agentiques — ces logiciels capables de planifier, d'agir et de prendre des décisions de manière autonome. Les deux experts y examinent ce qui distingue véritablement un agent IA d'une simple automatisation traditionnelle, et comment concevoir ces systèmes sans perdre le contrôle. La discussion porte sur les défis concrets pour les architectes et ingénieurs : comment définir les limites d'action d'un agent, comment orchestrer plusieurs agents entre eux, et quels modèles organisationnels adopter dès les premières phases de déploiement. L'enjeu est de tirer parti de l'autonomie de ces systèmes tout en évitant le chaos opérationnel. Le sujet s'inscrit dans une réflexion plus large sur la maturité croissante des agents IA, qui passent progressivement du statut d'assistants réactifs à celui d'acteurs autonomes dans les infrastructures logicielles.

OutilsOpinion
1 source