Aller au contenu principal
kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles
InfrastructureMarkTechPost6sem

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

Résumé IASource uniqueImpact UE
Source originale ↗·

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence.

L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens.

Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

Impact France/UE

Les équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?
1Le Big Data 

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?

Le 24 avril 2026, Meta Platforms a officialisé un accord de plusieurs milliards de dollars avec Amazon Web Services portant sur l'accès à des dizaines de millions de cœurs de puces Graviton sur une durée estimée entre trois et cinq ans. Les puces concernées sont les Graviton5, gravées en 3 nanomètres, conçues en interne par Amazon via Annapurna Labs sur architecture Arm. Meta devient ainsi l'un des cinq plus grands clients de cette gamme de processeurs. Selon Nafea Bshara, vice-présidente d'AWS, le critère décisif pour Meta a été le rapport performance/prix, dans un contexte où les coûts d'infrastructure liés à l'IA atteignent des niveaux inédits. L'accord marque une rupture avec la logique purement GPU qui dominait les décisions d'infrastructure depuis deux ans et confirme un rééquilibrage profond des architectures de calcul à grande échelle. Ce retour des CPU au premier plan n'est pas un hasard. L'essor des agents IA, ces systèmes capables d'exécuter des tâches complexes de manière autonome, génère des besoins de calcul différents de ceux de l'entraînement des grands modèles. Les CPU jouent un rôle central dans les phases dites de post-entraînement, où les modèles sont ajustés pour des usages spécifiques, ainsi que dans la gestion de l'orchestration en amont et en aval des GPU. Loin de les remplacer, ils les complètent en optimisant l'ensemble de la chaîne de traitement. Pour Meta, qui déploie Meta AI à des centaines de millions d'utilisateurs et développe activement des expériences agentiques, la capacité à absorber des volumes massifs d'inférences à coût maîtrisé est devenue un avantage compétitif direct. Cet accord s'inscrit dans une stratégie d'infrastructure délibérément diversifiée. Meta multiplie les partenariats avec Nvidia, AMD et Arm Holdings, refusant toute dépendance à une architecture unique. La collaboration avec Amazon remonte à 2016, mais bascule ici vers un engagement sur une technologie CPU spécifique, ce qui est inédit dans leur relation. Sur le plan géographique, la majorité des déploiements sera réalisée aux États-Unis, dans un contexte de souveraineté technologique et de sécurisation des chaînes d'approvisionnement devenues des enjeux stratégiques. Du côté d'Amazon, valider Meta comme client de référence renforce la crédibilité des Graviton face aux solutions concurrentes et soutient une intégration verticale plus large : AWS vient d'annoncer 5 milliards de dollars supplémentaires investis dans Anthropic, qui utilisera elle aussi ces mêmes puces maison.

InfrastructureOpinion
1 source
Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud
2AI News 

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

Cadence Design Systems a annoncé cette semaine, lors de son événement CadenceLIVE, deux nouvelles collaborations dans le domaine de l'intelligence artificielle : un approfondissement de son partenariat avec Nvidia, et une intégration inédite avec Google Cloud. Avec Nvidia, l'objectif est de combiner la simulation physique, le calcul accéléré et l'IA pour concevoir et déployer des systèmes robotiques et des infrastructures à grande échelle. Concrètement, Cadence intègre ses outils de simulation multiphysique avec les bibliothèques CUDA-X de Nvidia, ses modèles d'IA et son environnement de simulation basé sur Omniverse. Ces outils modélisent les interactions thermiques, électriques et mécaniques pour permettre aux ingénieurs d'évaluer le comportement des systèmes dans des conditions réelles, avant tout déploiement physique. Le PDG de Nvidia, Jensen Huang, présent à l'événement, a résumé l'ambition commune : "Nous travaillons avec vous sur l'ensemble des systèmes robotiques." Côté Google Cloud, Cadence a présenté un nouvel agent IA dédié à l'automatisation des étapes avancées de conception de puces, notamment la traduction des circuits en implantations physiques sur silicium. Cet agent s'appuie sur les modèles Gemini de Google et sera déployé directement dans le cloud. La plateforme ChipStack AI Super Agent de Cadence affiche des gains de productivité allant jusqu'à dix fois dans les premiers déploiements, sur des tâches de conception et de vérification. Ces annonces ont des implications directes pour plusieurs secteurs industriels. Dans la robotique, la simulation physique précise permet de générer des jeux de données d'entraînement sans avoir à collecter de données dans le monde réel, ce qui réduit considérablement les coûts et les délais. Comme l'a souligné le PDG de Cadence, Anirudh Devgan : "Plus les données générées sont précises, meilleur sera le modèle." Des géants de l'automatisation industrielle tels qu'ABB Robotics, FANUC, YASKAWA et KUKA intègrent déjà ces outils dans leurs flux de mise en service virtuelle pour tester des lignes de production entières avant leur déploiement physique. Pour la conception de semi-conducteurs, le passage à des agents IA capables d'automatiser les étapes de layout promet d'accélérer des cycles de développement qui comptent parmi les plus longs et coûteux de l'industrie technologique. Ces partenariats s'inscrivent dans une tendance de fond : la convergence entre conception électronique assistée par ordinateur, IA générative et jumeaux numériques. Cadence, acteur historique de l'EDA (Electronic Design Automation) aux côtés de Synopsys et Mentor, cherche à se repositionner comme une plateforme d'ingénierie systémique intégrant l'IA à chaque étape du cycle de conception. Nvidia, de son côté, poursuit l'expansion de son écosystème Omniverse au-delà du jeu et de la visualisation, vers l'industrie lourde et la robotique physique. L'utilisation de Google Cloud comme vecteur de déploiement des outils de Cadence signale également une montée en puissance du cloud dans des workflows traditionnellement dominés par des infrastructures locales. Les prochaines étapes attendues incluent des annonces de clients utilisant la plateforme ChipStack ainsi qu'une généralisation des agents IA à d'autres étapes du design de puces.

UELes industriels européens KUKA (Allemagne) et ABB (Suisse), déjà utilisateurs de ces outils de simulation, bénéficieront directement des avancées en jumeaux numériques et en automatisation de la conception de puces.

InfrastructureActu
1 source
Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte
3MarkTechPost 

Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte

Together AI vient de publier en open source OSCAR (Offline Spectral Covariance-Aware Rotation), un système de quantification du cache KV à 2 bits conçu pour réduire drastiquement la mémoire GPU nécessaire à l'inférence de grands modèles de langage sur de longs contextes. Le problème visé est concret : lors de l'inférence en mode autorégressif, le cache KV croît avec la longueur du contexte, la taille des lots et la profondeur du modèle. À 100 000 tokens traités par dizaines de requêtes simultanées, ce cache peut accaparer la majorité de la mémoire GPU disponible. La quantification à INT2, qui ne représente les valeurs qu'avec 4 niveaux distincts, était jusqu'ici largement inutilisable : soit elle dégradait trop la précision, soit elle était incompatible avec les architectures de cache paginé utilisées en production. OSCAR surmonte ces deux obstacles grâce à une rotation des activations fondée non pas sur leur distribution brute, mais sur les statistiques d'attention elles-mêmes. L'innovation centrale d'OSCAR réside dans le choix de la base de rotation. Pour les clés (keys), ce qui compte n'est pas l'erreur de reconstruction euclidienne, mais l'erreur sur les logits d'attention, pondérée par la covariance des requêtes. Pour les valeurs (values), c'est la covariance pondérée par les scores d'attention qui détermine quelles directions d'erreur se propagent réellement dans la sortie du modèle. OSCAR estime ces covariances sur un jeu de calibration, les décompose en vecteurs propres, et les utilise comme base de rotation optimale. La rotation finale se compose de trois éléments : l'alignement sur les directions importantes pour l'attention, une transformation de Hadamard qui uniformise les canaux, et un réordonnancement par inversion de bits qui garantit que chaque groupe de quantification reçoit un représentant de chaque niveau hiérarchique. Le système s'intègre dans la pile de serving production de SGLang comme mode INT2 natif du cache KV. Ce travail s'inscrit dans une course intense à l'efficacité mémoire pour les LLM en production. La quantification du cache KV est un levier direct sur la taille des lots traitables et donc sur le coût par requête. Les approches INT4 existantes, comme QuIP# ou QuaRot, fonctionnaient déjà correctement, mais INT2 représentait une frontière difficile à franchir sans perte de qualité rédhibitoire. En publiant OSCAR en open source avec une intégration SGLang, Together AI met cet outil à disposition de l'ensemble de la communauté de déploiement de modèles. L'enjeu est considérable : multiplier par deux la compression du cache KV peut doubler la capacité de traitement parallèle d'un serveur sans changer le matériel. Les prochaines étapes naturelles concernent la validation sur des modèles de très grande taille et l'extension à d'autres architectures d'attention.

UELes laboratoires et startups IA européens déployant des LLM peuvent adopter cette technique open source pour réduire leurs coûts d'inférence GPU et doubler leur capacité de traitement parallèle sans changer de matériel.

InfrastructureOpinion
1 source
4VentureBeat AI 

Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble

Les agents d'intelligence artificielle peuvent désormais être interconnectés dans des workflows complexes, mais Vijoy Pandey, SVP et directeur général d'Outshift by Cisco, pointe une limite fondamentale : la connexion n'est pas la cognition. Chaque agent repart de zéro à chaque interaction, sans contexte partagé ni alignement sémantique avec ses pairs. Pour résoudre ce problème, l'équipe de Pandey développe trois nouveaux protocoles de communication inter-agents : le Semantic State Transfer Protocol (SSTP), qui opère au niveau du langage pour permettre aux systèmes d'inférer la bonne tâche ; le Latent Space Transfer Protocol (LSTP), capable de transférer l'espace latent complet d'un agent à un autre, en transmettant directement le cache KV pour éviter le coût de la tokenisation ; et le Compressed State Transfer Protocol (CSTP), orienté vers les déploiements en périphérie de réseau où il faut transmettre de grandes quantités d'état de manière précise et compressée. En parallèle, Cisco a collaboré avec le MIT sur le Ripple Effect Protocol, une initiative complémentaire dans cette direction. L'enjeu derrière ces travaux est considérable : atteindre ce que Pandey appelle l'"internet de la cognition", un niveau où des agents peuvent résoudre des problèmes inédits, sans intervention humaine, en partageant véritablement leur intention et leur contexte. Ce saut qualitatif représente selon lui le "grand déblocage" pour les systèmes d'IA de prochaine génération. Sur le plan opérationnel, Cisco a déjà montré des résultats concrets : en déployant plus de vingt agents, dont certains développés en interne et d'autres issus de fournisseurs tiers, l'équipe SRE de Cisco a automatisé plus d'une douzaine de workflows de bout en bout, incluant les pipelines CI/CD, les déploiements Kubernetes et les instanciations EC2. Ces agents accèdent à plus de cent outils via des frameworks comme le Model Context Protocol (MCP), tout en s'intégrant aux plateformes de sécurité de Cisco. Pandey situe cette évolution dans une trajectoire historique plus large : l'intelligence humaine a d'abord émergé individuellement, avant que la communication progressive entre individus ne déclenche une révolution cognitive collective, permettant l'intention partagée, la coordination et l'innovation distribuée. Son équipe reproduit délibérément cette trajectoire dans le silicium, en codifiant l'intention, le contexte et l'innovation collective directement dans l'infrastructure sous forme de règles, d'API et de capacités. L'architecture cible se décompose en trois couches : les protocoles (SSTP, LSTP, CSTP), un tissu de distribution pour synchroniser les états cognitifs entre endpoints, et des "moteurs de cognition" fournissant garde-fous et accélération. Cisco n'est pas seul sur ce terrain : la course à l'infrastructure agentique de nouvelle génération s'intensifie, avec des acteurs comme Anthropic, OpenAI et des startups spécialisées qui poussent chacun leurs propres standards, rendant la bataille des protocoles aussi stratégique que celle des modèles eux-mêmes.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour