Aller au contenu principal
L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible
OutilsAWS ML Blog7sem

L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible

Résumé IASource uniqueImpact UE
Source originale ↗·

AWS et la communauté open source llm-d annoncent la disponibilité de l'inférence désagrégée sur AWS, une avancée majeure pour le déploiement à grande échelle des modèles de langage. Cette collaboration, menée avec l'appui de Red Hat, aboutit à la mise à disposition d'un conteneur dédié — ghcr.io/llm-d/llm-d-aws — intégrant les bibliothèques spécifiques à l'infrastructure AWS, notamment l'Elastic Fabric Adapter (EFA) et libfabric.

À mesure que l'IA passe de la phase de prototypage à un déploiement industriel, l'inférence devient le goulot d'étranglement central. Les modèles raisonnants et agentiques génèrent désormais 10 fois plus de tokens que les systèmes à réponse directe, créant une charge variable et exponentielle qui dégrade les performances. L'inférence désagrégée répond à ce défi en séparant physiquement les deux phases du processus : la phase prefill (fortement liée au calcul) et la phase decode (fortement liée à la mémoire), permettant d'allouer des ressources GPU adaptées à chacune.

llm-d est un framework Kubernetes-natif construit au-dessus de vLLM, enrichi d'orchestration de niveau production, de planification avancée des requêtes et de support pour les interconnexions haute performance. La nouvelle intégration avec la bibliothèque NIXL permet notamment l'inférence multi-nœuds désagrégée et le parallélisme d'experts. Le tout est disponible sur Amazon SageMaker HyperPod et Amazon Elastic Kubernetes Service (EKS), après plusieurs mois de benchmarks itératifs pour garantir une version stable prête à l'emploi.

Cette initiative s'inscrit dans une tendance de fond : l'optimisation de l'inférence LLM devient un enjeu compétitif aussi important que l'entraînement des modèles eux-mêmes. En proposant des architectures de référence packagées — les well-lit paths — llm-d et AWS cherchent à démocratiser l'accès à ces optimisations avancées, jusqu'ici réservées aux équipes disposant d'une expertise infrastructure poussée.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Le Spring AI SDK pour Amazon Bedrock AgentCore est désormais en disponibilité générale

Amazon a rendu disponible en accès général le Spring AI SDK pour Amazon Bedrock AgentCore, une bibliothèque open source qui permet aux développeurs Java de construire et déployer des agents IA autonomes en production sur l'infrastructure d'AWS. Ce SDK s'intègre nativement dans l'écosystème Spring Boot 3.5 et Java 17 minimum, en exploitant les patterns familiers du framework : annotations, auto-configuration et advisors composables. Concrètement, un développeur ajoute une dépendance au projet, annote une méthode, et le SDK prend en charge tout le reste, de la gestion des endpoints jusqu'au streaming des réponses en temps réel. Jusqu'à présent, intégrer Amazon Bedrock AgentCore dans une application Spring représentait plusieurs semaines de travail d'infrastructure avant même d'écrire la moindre logique métier : il fallait implémenter manuellement les endpoints /invocations et /ping, gérer le streaming Server-Sent Events avec son protocole précis, configurer les health checks, le rate limiting, et connecter les advisors et les outils. Le SDK automatise entièrement ce contrat technique imposé par l'AgentCore Runtime. En particulier, il détecte automatiquement les tâches asynchrones longues et signale un statut "HealthyBusy" au runtime pour éviter qu'il ne retire des ressources pendant un traitement actif, un détail critique dans un modèle de facturation à l'usage où les temps d'inactivité ne sont pas facturés. Les équipes peuvent ainsi se concentrer sur la logique des agents plutôt que sur la plomberie infrastructure, et déployer des fonctionnalités comme la mémoire conversationnelle, l'automatisation de navigateur et l'exécution de code en sandbox. L'émergence de ce SDK s'inscrit dans une tendance de fond : les entreprises cherchent à passer des preuves de concept en IA générative à des systèmes agentiques véritablement opérationnels à grande échelle, capables de planifier et d'exécuter des tâches complexes en plusieurs étapes de manière autonome. AWS positionne Bedrock AgentCore comme une plateforme universelle, compatible avec n'importe quel framework et n'importe quel modèle. En ciblant spécifiquement la communauté Java et Spring, l'une des plus larges dans l'entreprise, Amazon ouvre un couloir direct vers la production pour des millions de développeurs backend qui auraient autrement dû franchir une barrière technique considérable. La concurrence dans ce segment est vive : Microsoft avec Azure AI, Google avec Vertex AI et des acteurs comme LangChain ou CrewAI proposent leurs propres abstractions pour les agents IA. La disponibilité générale du Spring AI AgentCore SDK marque une étape dans la maturité de l'outillage autour des agents IA en entreprise, où la gouvernance, la sécurité et la scalabilité deviennent des critères aussi importants que les capacités du modèle lui-même.

UELes développeurs Java et Spring Boot en Europe peuvent intégrer directement Amazon Bedrock AgentCore dans leurs projets sans semaines de travail d'infrastructure, accélérant la mise en production d'agents IA sur AWS.

OutilsOutil
1 source
Prévisualisation de Transformers.js v4 : Disponible sur NPM !
2HuggingFace Blog 

Prévisualisation de Transformers.js v4 : Disponible sur NPM !

Transformers.js v4, un outil JavaScript pour les transformations de données, est maintenant disponible sur NPM pour prévisualisation. Ce nouveau version offre des améliorations de performance et des fonctionnalités supplémentaires pour une manipulation de données plus efficace. Les utilisateurs peuvent désormais bénéficier de prises en charge accrue pour les schémas de données et une meilleure intégration avec d'autres bibliothèques JavaScript.

UETransformers.js v4, outil JavaScript pour transformations de données, disponible sur NPM, améliore les performances et offre une meilleure prise en charge des schémas de données, bénéficiant potentiellement aux entreprises françaises et européennes utilisant JavaScript pour le traitement de données, tout en respectant les réglementations RGPD grâce à une gestion efficace des informations.

OutilsOutil
1 source
Coup dur pour Android Auto, ChatGPT est maintenant disponible sur CarPlay
3Presse-citron 

Coup dur pour Android Auto, ChatGPT est maintenant disponible sur CarPlay

Avec la mise à jour iOS 26.4, Apple ouvre CarPlay à ChatGPT, permettant aux conducteurs d'interagir avec l'assistant d'OpenAI directement depuis l'interface de leur véhicule. C'est une première : jusqu'ici, CarPlay restait fermé aux assistants IA tiers, Siri conservant le monopole de la voix dans l'écosystème Apple en voiture. Apple annonce également que d'autres chatbots IA pourront à terme intégrer CarPlay, ouvrant la plateforme à une concurrence inédite. Pour les utilisateurs, cela signifie un accès mains-libres à un assistant bien plus capable que Siri pour des tâches complexes — rédiger un message, répondre à une question technique, naviguer dans une conversation — sans sortir le téléphone. Pour Android Auto, qui n'a pas encore annoncé d'équivalent, c'est un signal de retard compétitif potentiellement significatif sur ce segment du quotidien connecté. Cette ouverture s'inscrit dans la stratégie d'Apple d'intégrer progressivement l'IA générative à son écosystème depuis le lancement d'Apple Intelligence en 2024, en partenariat avec OpenAI pour combler les lacunes de Siri. En élargissant CarPlay à d'autres IA à venir — Google Gemini, Claude ou d'autres — Apple transforme sa plateforme automobile en marketplace d'assistants, tout en gardant la maîtrise de l'environnement matériel et de l'expérience utilisateur.

UELes utilisateurs iPhone en France et dans l'UE disposant d'un véhicule compatible CarPlay peuvent accéder à ChatGPT en mains libres dès iOS 26.4.

💬 Apple qui ouvre CarPlay à ChatGPT, c'est le genre de truc que Siri méritait depuis longtemps, sauf que c'est pas Siri qui en profite. La vraie nouvelle c'est l'ouverture de la plateforme à d'autres IA à venir, Google, Claude, etc., Apple transforme CarPlay en terrain de jeu plutôt qu'en forteresse. Android Auto a du boulot.

OutilsOutil
1 source
SEO : doit-on désormais écrire pour les LLM ?
4Blog du Modérateur 

SEO : doit-on désormais écrire pour les LLM ?

Le référencement naturel traverse une mutation profonde : avec l'essor des grands modèles de langage (LLM) comme ChatGPT, Perplexity ou Google SGE, une nouvelle discipline émerge, baptisée GEO (Generative Engine Optimization) ou AEO (Answer Engine Optimization). Jessica Michenaud, cheffe de projet SEO chez l'agence française Galopins, analyse cette transformation et la manière dont les professionnels du secteur doivent adapter leurs pratiques pour apparaître non plus seulement dans les moteurs de recherche classiques, mais dans les réponses générées par l'IA. L'enjeu est considérable pour les éditeurs de contenus et les marques : si les LLM deviennent le premier point de contact entre l'internaute et l'information, être cité ou synthétisé par ces systèmes devient aussi stratégique qu'un positionnement en première page Google. La bonne nouvelle, selon Michenaud, est que l'exigence éditoriale — contenu précis, sourcé, structuré, à forte valeur ajoutée — reste le critère déterminant. Les contenus creux optimisés pour le clic résistent moins bien que les articles de fond que les LLM jugent dignes d'être cités. Ce débat s'inscrit dans un contexte où Google lui-même intègre des résumés génératifs dans ses résultats (AI Overviews), réduisant potentiellement le trafic vers les sites sources. Des acteurs comme Perplexity ou Claude d'Anthropic captent une part croissante des requêtes informationnelles. Les agences SEO sont ainsi contraintes de repenser leurs modèles : optimiser les balises et la densité de mots-clés ne suffit plus — il faut désormais produire des contenus que les LLM considèrent comme des références fiables, ce qui rapproche paradoxalement le SEO du journalisme de qualité.

UELes éditeurs de contenus et agences SEO français doivent repenser leurs pratiques pour apparaître dans les réponses génératives des LLM, sous peine de perdre du trafic face aux AI Overviews de Google et aux moteurs comme Perplexity.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour