Dossier Open weight & Open source — page 3

285 articles · page 3 sur 6

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

101MarkTechPost InfrastructureTuto

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence. L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens. Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

UELes équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

Dossier Open weight & Open source — page 3

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points

Concevoir un système multi-agents CAMEL de production : planification, outils, cohérence et affinement critique

Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore

OpenClaw peine à confirmer après son succès fulgurant

Agents IA autonomes : les meilleurs outils à installer en local sur son PC

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

Les deux visages d'OpenClaw

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo

OpenAI s’attaque à la Fintech : quel impact pour le secteur financier ?

[AINews] Le dernier souffle de l'humanité

Le futur du génie logiciel redéfini

Le système de tatouage numérique IA de Google a-t-il été percé ?

Microsoft prépare de nouvelles fonctionnalités pour Copilot, inspirées d'OpenClaw

☕️ Linux clarifie les règles d’utilisation de l’IA dans les contributions au noyau

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

AI Engineer Europe 2026

LM Studio rachète Locally AI, l’application française pour installer un LLM local sur son iPhone

Le secteur de l'IA face à une course aux profits devenue existentielle

Anthropic a développé un modèle trop dangereux pour être publié

META invente l’IA social-native : une nouvelle couche entre contenu, recommandation et commerce

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

OpenClaw sur Claude, c’est fini ! Vous allez devoir passer à la caisse

Google lance une application pour utiliser son IA en local sur iPhone et Android

Anthropic de nouveau confronte a une penurie de puissance de calcul

ChatGPT, Gemini, Claude… Pika donne un visage (et une voix) à toutes vos IA !

Gemma 4 dépasse les 2 millions de téléchargements

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Claude, OpenClaw et la nouvelle réalité : les agents IA sont là, et le chaos aussi

Google dévoile 4 IA qui peuvent tourner sur votre smartphone ou votre ordinateur, sans Internet

Les sessions persistantes et l'exécution de commandes shell grâce à la configuration du système de fichiers

Alibaba lance un nouveau modèle d'IA propriétaire

Gemma 4 : intelligence multimodale de pointe sur appareil

OpenAI confirme officiellement sa méga-levée de fonds et la super-app ChatGPT

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

BlueSky lance Attie : une IA pour créer ton propre réseau social

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

NVIDIA GTC : l'Omniverse au service de l'IA physique

Mozilla cq : l’incroyable projet qui va permettre aux IA de se partager leur savoir

Cinq jours pour infiltrer, trois heures pour tout voler : comment des hackers ont piégé des millions de développeurs IA

Iliad fait de l’IA et du cloud ses nouveaux relais de croissance

Nvidia Earth-2 : l’IA qui va révolutionner la prédiction météo dans le monde entier

NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA

Pour Jensen Huang, la demande en puces IA va encore doubler d’ici 2027

Accompagner l'IA agentique au-delà de ses premiers pas