Aller au contenu principal
RechercheApple Machine Learning1sem

EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté EpiCache, une nouvelle méthode de gestion de la mémoire cache pour les grands modèles de langage (LLM) conçue pour fonctionner sur des appareils aux ressources limitées. Le système s'attaque à un problème précis : lorsque les LLM maintiennent de longues conversations, le cache KV (Key-Value), qui stocke les calculs intermédiaires pour éviter de les recalculer, grossit de manière linéaire avec la longueur de l'historique. Sur des appareils comme les smartphones ou les ordinateurs grand public, cette croissance fait rapidement dépasser les limites de mémoire disponible.

Le problème des approches existantes est double. D'abord, la plupart des méthodes de compression n'élaguent le cache qu'après avoir traité l'intégralité du contexte, ce qui entraîne un pic de consommation mémoire non maîtrisé. Ensuite, les techniques d'éviction basées sur la requête en cours restreignent la sémantique du cache à une seule question, rendant le système incapable de maintenir une cohérence conversationnelle sur le long terme. EpiCache contourne ces limites en découpant l'historique en épisodes gérés indépendamment, ce qui permet un contrôle précis de l'empreinte mémoire à tout moment.

L'enjeu est stratégique pour la démocratisation de l'IA conversationnelle. Les fournisseurs comme Google, OpenAI et Anthropic repoussent les fenêtres de contexte vers le million de tokens, mais cette course aux capacités reste largement inaccessible hors de l'infrastructure cloud. EpiCache s'inscrit dans un mouvement plus large visant à faire tourner des modèles performants en local, sur des terminaux personnels, sans sacrifier la qualité des échanges longs.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques
1Apple Machine Learning 

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper
1 source
Routage KV stochastique : partage adaptatif du cache par couches
2Apple Machine Learning 

Routage KV stochastique : partage adaptatif du cache par couches

Des chercheurs ont publié une étude proposant une nouvelle méthode appelée « Stochastic KV Routing » pour réduire l'empreinte mémoire du cache clé-valeur (KV cache) utilisé lors de l'inférence des grands modèles de langage de type transformer. Cette technique s'attaque à l'un des principaux goulets d'étranglement du déploiement à grande échelle : le stockage des vecteurs K et V pour chaque couche du modèle, indispensables pour éviter de recalculer les représentations à chaque token généré. Plutôt que de compresser ou d'élaguer le cache selon l'axe temporel (les tokens passés), les auteurs explorent la dimension de profondeur, c'est-à-dire les couches du réseau. L'impact potentiel est direct sur les coûts d'infrastructure des fournisseurs de modèles : le KV cache peut représenter une part considérable de la mémoire GPU lors du service à haute charge, limitant le nombre de requêtes traitables en parallèle. En permettant un partage adaptatif du cache entre couches, certaines couches se révélant redondantes, cette approche ouvre la voie à une réduction significative de la mémoire sans dégradation substantielle des performances. La recherche sur l'efficacité de l'inférence est devenue un enjeu stratégique majeur depuis l'explosion de l'usage des LLM en production. La plupart des travaux récents se sont concentrés sur la compression temporelle (attention sparse, éviction de tokens), laissant la dimension de profondeur relativement inexploitée. Cette nouvelle direction pourrait compléter les techniques existantes de manière orthogonale, offrant aux opérateurs de modèles un levier supplémentaire pour optimiser leurs coûts de serving sans retraining.

RecherchePaper
1 source
10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
3MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états
4Apple Machine Learning 

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états

Des chercheurs ont publié une étude démontrant une limite fondamentale des State Space Models (SSMs), la famille d'architectures neuronales considérée comme la principale alternative aux Transformers pour le traitement de séquences longues. Leur résultat théorique, formellement prouvé, établit qu'aucun SSM ne peut résoudre avec précision ce qu'ils appellent un problème de "génération véritablement longue" — c'est-à-dire des tâches nécessitant de maintenir et manipuler de l'information sur des contextes dépassant la capacité effective de leur mémoire fixe. Cette conclusion s'applique aux architectures SSM dans leur forme standard, indépendamment de leur taille ou de leur entraînement. Cette découverte fragilise l'argument central qui faisait la réputation des SSMs : leur efficacité sur les longues séquences. Contrairement aux Transformers, dont la complexité computationnelle croît quadratiquement avec la longueur du contexte, les SSMs fonctionnent en mémoire fixe avec une complexité linéaire — ce qui les rendait théoriquement supérieurs pour les tâches longue portée. Si cette limite est confirmée, elle remet en question l'usage des SSMs dans des applications critiques comme la synthèse de documents longs, le raisonnement multi-étapes ou la génération de code étendu. Les chercheurs proposent néanmoins une solution : doter les SSMs d'un accès interactif à des outils externes. Cette approche, qui s'inscrit dans la tendance plus large du "tool use" en IA, permettrait aux modèles de contourner leur contrainte mémoire en déléguant certaines opérations à des systèmes externes. Les SSMs rejoignent ainsi les Transformers dans une convergence vers des architectures hybrides augmentées d'outils, suggérant que la prochaine génération de modèles efficaces ne sera pas définie par l'architecture seule, mais par sa capacité à s'interfacer avec son environnement.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour