EpiCache : gestion du cache KV épisodique pour…

42

1Apple Machine Learning

Recherche linguistique récursive face à l'incertitude : l'efficacité surprenante de la recherche de programmes auto-réflexifs pour le contexte long

Les modèles de langage peinent encore à exploiter fiablement de très longs contextes, même quand leur fenêtre de contexte s'étend sur des dizaines ou centaines de milliers de tokens : ils échoient souvent à extraire, relier et réutiliser correctement les informations disséminées dans ces textes. Une approche récente, les Recursive Language Models (RLM), tente de contourner ce problème en décomposant le contexte long en une série de sous-requêtes traitées de façon agentique, via des programmes générés et exécutés au moment de l'inférence. Un article de recherche s'attaque ici à une question restée jusque-là dans l'angle mort de cette méthode : comment sélectionner, parmi les multiples trajectoires possibles de programmes d'interaction avec le contexte, celle qui donnera le meilleur résultat. Les auteurs montrent que la performance des RLM dépend de façon critique de ce choix, et proposent une méthode de recherche de programme auto-réflexive fondée sur l'incertitude du modèle pour guider cette sélection. Cette question compte parce que les RLM sont présentés comme une piste sérieuse pour traiter des documents, bases de code ou historiques de conversation trop volumineux pour tenir dans une fenêtre de contexte classique, sans perte de précision. Si la qualité de la trajectoire de sous-requêtes choisie détermine la fiabilité finale des réponses, alors optimiser ce mécanisme de sélection devient un levier direct pour rendre ces systèmes utilisables en production, par exemple pour l'analyse de contrats juridiques, de logs techniques ou de vastes corpus de recherche, là où une mauvaise décomposition du contexte peut aujourd'hui faire échouer toute la chaîne de raisonnement. Le travail s'inscrit dans une dynamique plus large de recherche sur les architectures agentiques appliquées au traitement de contexte long, où plusieurs équipes explorent des stratégies de découpage, de résumé récursif ou d'appel d'outils pour pallier les limites structurelles des transformeurs sur les séquences très longues. En mettant l'incertitude du modèle au cœur du processus de sélection de programme, les auteurs ouvrent une piste pour rendre ces systèmes plus robustes et plus autonomes, avec des implications potentielles pour la conception future d'agents capables de gérer des tâches de recherche et d'analyse documentaire complexes sans supervision humaine constante.

RecherchePaper

1 source

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

40

2Apple Machine Learning

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper

1 source

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache

46

3MarkTechPost

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache

La mémoire cache des modèles de langage à long contexte est devenue l'un des principaux goulots d'étranglement de l'IA générative, et plusieurs équipes de recherche publient en 2026 des solutions radicalement différentes. Le mécanisme en question, le cache KV (clé-valeur), stocke à chaque couche du transformeur les vecteurs calculés pour chaque token déjà traité, évitant ainsi de les recalculer à chaque étape. Le problème : ce cache grossit linéairement avec la longueur du contexte. Pour Llama-3.1-70B en BF16, le coût atteint environ 0,31 Mo par token, soit 40 Go pour 128 000 tokens, et plus de 300 Go pour un million de tokens, un volume supérieur aux 140 Go des poids du modèle lui-même. À haute concurrence, ce cache monopolise la bande passante mémoire et ralentit l'inférence indépendamment de la puissance de calcul disponible. TurboQuant, développé conjointement par Google et l'Université de New York et présenté à l'ICLR 2026, répond à ce défi sans calibration préalable : chaque vecteur est d'abord soumis à une rotation aléatoire qui distribue les valeurs de façon approximativement gaussienne, puis quantifié par un quantificateur scalaire optimal (Lloyd-Max). Un second étage applique une transformation Johnson-Lindenstrauss à 1 bit sur le résidu, produisant une estimation sans biais des logits d'attention. OSCAR, développé par Together AI, adopte l'approche inverse : constatant que quatre niveaux de représentation (INT2) laissent trop peu de précision pour une rotation aveugle, il calcule lors d'une passe de calibration hors ligne une rotation spécifique au modèle, les clés sont projetées dans la base propre de la covariance des requêtes, les valeurs dans celle des valeurs pondérées par les scores d'attention. Apple a de son côté publié EpiCache pour s'attaquer à un problème que ni TurboQuant ni OSCAR n'adressent. L'enjeu dépasse largement l'optimisation technique : réduire le cache KV, c'est rendre accessibles des contextes très longs à coût maîtrisé, ce qui change concrètement l'économie des services d'IA. Un modèle capable d'ingérer un million de tokens sans saturer la mémoire GPU peut traiter des documents entiers, des bases de code complètes ou des historiques de conversation longs sans dégradation ni coût prohibitif. TurboQuant affiche une neutralité qualitative à 3,5 bits et une dégradation marginale à 2,5 bits par canal, avec une précision quasi-totale sur le benchmark Needle-in-a-Haystack à compression 4x. OSCAR, conçu pour la production, est livré sous forme de bibliothèque C intégrable, ce qui facilite son déploiement dans des systèmes existants. Ces travaux s'inscrivent dans une course à la compression des caches KV démarrée avec KIVI, qui avait établi la référence en quantifiant les clés par canal et les valeurs par token, réduisant la mémoire de pointe d'environ 2,6x, sans aucun réglage fin. La vraie difficulté reste les canaux aberrants : quelques dimensions aux magnitudes disproportionnées qui faussent la quantification et effondrent la précision en INT2 naïf. TurboQuant et OSCAR attaquent ce problème différemment, l'un par rotation aléatoire à coût nul, l'autre par calibration ciblée, laissant la porte ouverte à des hybrides qui combineraient les deux approches selon le régime de compression visé.

RecherchePaper

1 source

Routage KV stochastique : partage adaptatif du cache par couches

35

4Apple Machine Learning

Routage KV stochastique : partage adaptatif du cache par couches

Des chercheurs ont publié une étude proposant une nouvelle méthode appelée « Stochastic KV Routing » pour réduire l'empreinte mémoire du cache clé-valeur (KV cache) utilisé lors de l'inférence des grands modèles de langage de type transformer. Cette technique s'attaque à l'un des principaux goulets d'étranglement du déploiement à grande échelle : le stockage des vecteurs K et V pour chaque couche du modèle, indispensables pour éviter de recalculer les représentations à chaque token généré. Plutôt que de compresser ou d'élaguer le cache selon l'axe temporel (les tokens passés), les auteurs explorent la dimension de profondeur, c'est-à-dire les couches du réseau. L'impact potentiel est direct sur les coûts d'infrastructure des fournisseurs de modèles : le KV cache peut représenter une part considérable de la mémoire GPU lors du service à haute charge, limitant le nombre de requêtes traitables en parallèle. En permettant un partage adaptatif du cache entre couches, certaines couches se révélant redondantes, cette approche ouvre la voie à une réduction significative de la mémoire sans dégradation substantielle des performances. La recherche sur l'efficacité de l'inférence est devenue un enjeu stratégique majeur depuis l'explosion de l'usage des LLM en production. La plupart des travaux récents se sont concentrés sur la compression temporelle (attention sparse, éviction de tokens), laissant la dimension de profondeur relativement inexploitée. Cette nouvelle direction pourrait compléter les techniques existantes de manière orthogonale, offrant aux opérateurs de modèles un levier supplémentaire pour optimiser leurs coûts de serving sans retraining.

RecherchePaper

1 source

EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées

À lire aussi

Recherche linguistique récursive face à l'incertitude : l'efficacité surprenante de la recherche de programmes auto-réflexifs pour le contexte long

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache

Routage KV stochastique : partage adaptatif du cache par couches