
La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache
La mémoire cache des modèles de langage à long contexte est devenue l'un des principaux goulots d'étranglement de l'IA générative, et plusieurs équipes de recherche publient en 2026 des solutions radicalement différentes. Le mécanisme en question, le cache KV (clé-valeur), stocke à chaque couche du transformeur les vecteurs calculés pour chaque token déjà traité, évitant ainsi de les recalculer à chaque étape. Le problème : ce cache grossit linéairement avec la longueur du contexte. Pour Llama-3.1-70B en BF16, le coût atteint environ 0,31 Mo par token, soit 40 Go pour 128 000 tokens, et plus de 300 Go pour un million de tokens, un volume supérieur aux 140 Go des poids du modèle lui-même. À haute concurrence, ce cache monopolise la bande passante mémoire et ralentit l'inférence indépendamment de la puissance de calcul disponible. TurboQuant, développé conjointement par Google et l'Université de New York et présenté à l'ICLR 2026, répond à ce défi sans calibration préalable : chaque vecteur est d'abord soumis à une rotation aléatoire qui distribue les valeurs de façon approximativement gaussienne, puis quantifié par un quantificateur scalaire optimal (Lloyd-Max). Un second étage applique une transformation Johnson-Lindenstrauss à 1 bit sur le résidu, produisant une estimation sans biais des logits d'attention. OSCAR, développé par Together AI, adopte l'approche inverse : constatant que quatre niveaux de représentation (INT2) laissent trop peu de précision pour une rotation aveugle, il calcule lors d'une passe de calibration hors ligne une rotation spécifique au modèle, les clés sont projetées dans la base propre de la covariance des requêtes, les valeurs dans celle des valeurs pondérées par les scores d'attention. Apple a de son côté publié EpiCache pour s'attaquer à un problème que ni TurboQuant ni OSCAR n'adressent.
L'enjeu dépasse largement l'optimisation technique : réduire le cache KV, c'est rendre accessibles des contextes très longs à coût maîtrisé, ce qui change concrètement l'économie des services d'IA. Un modèle capable d'ingérer un million de tokens sans saturer la mémoire GPU peut traiter des documents entiers, des bases de code complètes ou des historiques de conversation longs sans dégradation ni coût prohibitif. TurboQuant affiche une neutralité qualitative à 3,5 bits et une dégradation marginale à 2,5 bits par canal, avec une précision quasi-totale sur le benchmark Needle-in-a-Haystack à compression 4x. OSCAR, conçu pour la production, est livré sous forme de bibliothèque C intégrable, ce qui facilite son déploiement dans des systèmes existants.
Ces travaux s'inscrivent dans une course à la compression des caches KV démarrée avec KIVI, qui avait établi la référence en quantifiant les clés par canal et les valeurs par token, réduisant la mémoire de pointe d'environ 2,6x, sans aucun réglage fin. La vraie difficulté reste les canaux aberrants : quelques dimensions aux magnitudes disproportionnées qui faussent la quantification et effondrent la précision en INT2 naïf. TurboQuant et OSCAR attaquent ce problème différemment, l'un par rotation aléatoire à coût nul, l'autre par calibration ciblée, laissant la porte ouverte à des hybrides qui combineraient les deux approches selon le régime de compression visé.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


