Aller au contenu principal
Routage KV stochastique : partage adaptatif du cache par couches
RechercheApple Machine Learning6sem· 1 min de lecture

Routage KV stochastique : partage adaptatif du cache par couches

Source originale ↗·

Des chercheurs ont publié une étude proposant une nouvelle méthode appelée « Stochastic KV Routing » pour réduire l'empreinte mémoire du cache clé-valeur (KV cache) utilisé lors de l'inférence des grands modèles de langage de type transformer. Cette technique s'attaque à l'un des principaux goulets d'étranglement du déploiement à grande échelle : le stockage des vecteurs K et V pour chaque couche du modèle, indispensables pour éviter de recalculer les représentations à chaque token généré. Plutôt que de compresser ou d'élaguer le cache selon l'axe temporel (les tokens passés), les auteurs explorent la dimension de profondeur, c'est-à-dire les couches du réseau.

L'impact potentiel est direct sur les coûts d'infrastructure des fournisseurs de modèles : le KV cache peut représenter une part considérable de la mémoire GPU lors du service à haute charge, limitant le nombre de requêtes traitables en parallèle. En permettant un partage adaptatif du cache entre couches, certaines couches se révélant redondantes, cette approche ouvre la voie à une réduction significative de la mémoire sans dégradation substantielle des performances.

La recherche sur l'efficacité de l'inférence est devenue un enjeu stratégique majeur depuis l'explosion de l'usage des LLM en production. La plupart des travaux récents se sont concentrés sur la compression temporelle (attention sparse, éviction de tokens), laissant la dimension de profondeur relativement inexploitée. Cette nouvelle direction pourrait compléter les techniques existantes de manière orthogonale, offrant aux opérateurs de modèles un levier supplémentaire pour optimiser leurs coûts de serving sans retraining.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées
1Apple Machine Learning 

EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées

Des chercheurs ont présenté EpiCache, une nouvelle méthode de gestion de la mémoire cache pour les grands modèles de langage (LLM) conçue pour fonctionner sur des appareils aux ressources limitées. Le système s'attaque à un problème précis : lorsque les LLM maintiennent de longues conversations, le cache KV (Key-Value), qui stocke les calculs intermédiaires pour éviter de les recalculer, grossit de manière linéaire avec la longueur de l'historique. Sur des appareils comme les smartphones ou les ordinateurs grand public, cette croissance fait rapidement dépasser les limites de mémoire disponible. Le problème des approches existantes est double. D'abord, la plupart des méthodes de compression n'élaguent le cache qu'après avoir traité l'intégralité du contexte, ce qui entraîne un pic de consommation mémoire non maîtrisé. Ensuite, les techniques d'éviction basées sur la requête en cours restreignent la sémantique du cache à une seule question, rendant le système incapable de maintenir une cohérence conversationnelle sur le long terme. EpiCache contourne ces limites en découpant l'historique en épisodes gérés indépendamment, ce qui permet un contrôle précis de l'empreinte mémoire à tout moment. L'enjeu est stratégique pour la démocratisation de l'IA conversationnelle. Les fournisseurs comme Google, OpenAI et Anthropic repoussent les fenêtres de contexte vers le million de tokens, mais cette course aux capacités reste largement inaccessible hors de l'infrastructure cloud. EpiCache s'inscrit dans un mouvement plus large visant à faire tourner des modèles performants en local, sur des terminaux personnels, sans sacrifier la qualité des échanges longs.

RecherchePaper
1 source
Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
2MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots
3arXiv cs.RO 

AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant AdaTracker, un nouveau cadre d'apprentissage conçu pour résoudre un problème persistant en robotique : permettre à un seul modèle d'assurer le suivi visuel actif d'une cible sur des plateformes robotiques radicalement différentes. Aujourd'hui, chaque type de robot, qu'il s'agisse d'un drone, d'un bras manipulateur ou d'un robot mobile, requiert son propre modèle entraîné séparément, car les contraintes physiques et les dynamiques de mouvement varient considérablement d'une machine à l'autre. AdaTracker propose une architecture unifiée articulée autour de deux composants clés : un Embodiment Context Encoder, qui infère les contraintes spécifiques à chaque robot à partir de son historique de mouvements, et un Context-Aware Policy, qui ajuste dynamiquement les actions de contrôle en conséquence. Les expériences menées en simulation et dans le monde réel montrent que ce système surpasse les méthodes existantes en termes de généralisation inter-plateformes, d'efficacité d'échantillonnage et d'adaptation sans données d'entraînement préalables, ce que les chercheurs appellent l'adaptation zéro-shot. L'enjeu est considérable pour l'industrie robotique : développer et maintenir des modèles distincts pour chaque morphologie de robot est coûteux, peu scalable et freine le déploiement à grande échelle. AdaTracker pourrait permettre à un seul modèle d'être déployé sur une flotte hétérogène de robots sans réentraînement, réduisant drastiquement les coûts de développement. La capacité d'adaptation zéro-shot est particulièrement significative : le système peut contrôler un robot qu'il n'a jamais vu auparavant, en inférant ses contraintes physiques uniquement à partir de quelques interactions récentes. Ce travail s'inscrit dans une tendance de fond visant à construire des modèles fondationnels pour la robotique, à l'image de ce que des projets comme RT-2 de Google ou OpenVLA ont tenté pour la manipulation. Le suivi visuel actif, capacité fondamentale pour les drones de surveillance, les robots d'inspection ou les systèmes de sécurité, reste un défi technique non résolu dans sa dimension multi-plateforme. AdaTracker ouvre une voie vers des systèmes robotiques plus généraux et plus facilement transférables, une priorité alors que les déploiements industriels de robots diversifiés s'accélèrent.

RechercheActu
1 source
AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques
4Microsoft Research 

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques

Des chercheurs de Microsoft Research ont publié AutoAdapt, un cadre automatisé destiné à adapter les grands modèles de langage (LLM) à des domaines spécialisés à forts enjeux, comme le droit, la médecine ou la gestion d'incidents cloud. Présenté dans un article intitulé "AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models", le système prend en entrée un objectif défini en langage naturel, des données de domaine et des contraintes pratiques (latence, matériel, budget, confidentialité), puis construit automatiquement un pipeline d'adaptation complet et reproductible. Pour y parvenir, AutoAdapt s'appuie sur trois composants : un graphe de configuration appelé Adaptation Configuration Graph (ACG) qui cartographie l'espace des possibles, un agent planificateur qui sélectionne et séquence les bonnes étapes, et une boucle d'optimisation budgétaire nommée AutoRefine qui affine le résultat dans les limites imposées. L'enjeu est considérable pour les équipes qui déploient des LLM en production. Aujourd'hui, spécialiser un modèle généraliste implique de choisir manuellement entre des approches comme la génération augmentée par récupération (RAG), le fine-tuning supervisé ou des méthodes à efficacité paramétrique comme LoRA, puis d'ajuster des dizaines d'hyperparamètres dans un espace de décision vaste et peu lisible. Ce processus prend des semaines, sans garantie de résultat reproductible. Pour une équipe qui gère une panne critique, un modèle qui dérive de ses exigences de domaine n'est tout simplement pas une option. AutoAdapt transforme ce tâtonnement coûteux en un pipeline exécutable en une fraction du temps, rendant les LLM fiables et prévisibles dans des contextes où les erreurs ont des conséquences réelles. Cette publication s'inscrit dans une tendance de fond qui vise à industrialiser le déploiement des LLM, au-delà de la simple performance sur des benchmarks génériques. Les entreprises qui adoptent ces modèles dans des secteurs régulés ou techniques se heurtent systématiquement au même mur : la spécialisation est longue, chère et fragile. Microsoft Research, qui présente ce travail dans le cadre de son Microsoft Research Forum, positionne AutoAdapt comme une réponse structurée à ce goulot d'étranglement. Le système ouvre la voie à une standardisation des pratiques d'adaptation, là où chaque équipe réinventait jusqu'ici sa propre méthode. La prochaine étape logique sera de voir si ce cadre peut être intégré directement dans des plateformes cloud comme Azure AI Studio, ce qui accélérerait son adoption à grande échelle.

UELes entreprises européennes déployant des LLM dans des secteurs réglementés (santé, droit, finance) pourraient réduire significativement leurs coûts et délais de spécialisation grâce à ce type de framework d'adaptation automatisé.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic