La compression TurboQuant de Google pourrait…

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

47

1Ars Technica AI

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper

1 source

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

54

2VentureBeat AI

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper

1 source

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

38

3MarkTechPost

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper

1 source

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache

46

4MarkTechPost

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache

La mémoire cache des modèles de langage à long contexte est devenue l'un des principaux goulots d'étranglement de l'IA générative, et plusieurs équipes de recherche publient en 2026 des solutions radicalement différentes. Le mécanisme en question, le cache KV (clé-valeur), stocke à chaque couche du transformeur les vecteurs calculés pour chaque token déjà traité, évitant ainsi de les recalculer à chaque étape. Le problème : ce cache grossit linéairement avec la longueur du contexte. Pour Llama-3.1-70B en BF16, le coût atteint environ 0,31 Mo par token, soit 40 Go pour 128 000 tokens, et plus de 300 Go pour un million de tokens, un volume supérieur aux 140 Go des poids du modèle lui-même. À haute concurrence, ce cache monopolise la bande passante mémoire et ralentit l'inférence indépendamment de la puissance de calcul disponible. TurboQuant, développé conjointement par Google et l'Université de New York et présenté à l'ICLR 2026, répond à ce défi sans calibration préalable : chaque vecteur est d'abord soumis à une rotation aléatoire qui distribue les valeurs de façon approximativement gaussienne, puis quantifié par un quantificateur scalaire optimal (Lloyd-Max). Un second étage applique une transformation Johnson-Lindenstrauss à 1 bit sur le résidu, produisant une estimation sans biais des logits d'attention. OSCAR, développé par Together AI, adopte l'approche inverse : constatant que quatre niveaux de représentation (INT2) laissent trop peu de précision pour une rotation aveugle, il calcule lors d'une passe de calibration hors ligne une rotation spécifique au modèle, les clés sont projetées dans la base propre de la covariance des requêtes, les valeurs dans celle des valeurs pondérées par les scores d'attention. Apple a de son côté publié EpiCache pour s'attaquer à un problème que ni TurboQuant ni OSCAR n'adressent. L'enjeu dépasse largement l'optimisation technique : réduire le cache KV, c'est rendre accessibles des contextes très longs à coût maîtrisé, ce qui change concrètement l'économie des services d'IA. Un modèle capable d'ingérer un million de tokens sans saturer la mémoire GPU peut traiter des documents entiers, des bases de code complètes ou des historiques de conversation longs sans dégradation ni coût prohibitif. TurboQuant affiche une neutralité qualitative à 3,5 bits et une dégradation marginale à 2,5 bits par canal, avec une précision quasi-totale sur le benchmark Needle-in-a-Haystack à compression 4x. OSCAR, conçu pour la production, est livré sous forme de bibliothèque C intégrable, ce qui facilite son déploiement dans des systèmes existants. Ces travaux s'inscrivent dans une course à la compression des caches KV démarrée avec KIVI, qui avait établi la référence en quantifiant les clés par canal et les valeurs par token, réduisant la mémoire de pointe d'environ 2,6x, sans aucun réglage fin. La vraie difficulté reste les canaux aberrants : quelques dimensions aux magnitudes disproportionnées qui faussent la quantification et effondrent la précision en INT2 naïf. TurboQuant et OSCAR attaquent ce problème différemment, l'un par rotation aléatoire à coût nul, l'autre par calibration ciblée, laissant la porte ouverte à des hybrides qui combineraient les deux approches selon le régime de compression visé.

RecherchePaper

1 source

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

À lire aussi

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La course à la compression du KV Cache : TurboQuant vs OSCAR vs EpiCache