Aller au contenu principal
RechercheInfoQ AI6sem

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

Résumé IASource uniqueImpact UE
Source originale ↗·

Google Research a dévoilé TurboQuant, un nouvel algorithme de quantification conçu pour compresser les caches Key-Value (KV) des grands modèles de langage jusqu'à six fois leur taille originale. Cette technique permet d'atteindre une compression à 3,5 bits avec une perte de précision quasi nulle, et sans nécessiter de réentraînement du modèle. Les premiers benchmarks communautaires confirment des gains d'efficacité substantiels, permettant aux développeurs de faire tourner des fenêtres de contexte très larges sur du matériel bien moins puissant qu'auparavant.

L'enjeu est considérable : le cache KV est l'un des principaux goulots d'étranglement en mémoire lors de l'inférence de LLM, surtout lorsque les contextes atteignent des centaines de milliers de tokens. En réduisant l'empreinte mémoire de ces caches par un facteur pouvant atteindre 6x, TurboQuant ouvre la voie à des déploiements sur des GPU grand public ou des serveurs moins coûteux, ce qui représente une réduction directe des coûts d'inférence pour les entreprises et les développeurs indépendants.

La compression des caches KV est un domaine de recherche actif, avec des travaux concurrents comme KVQuant ou StreamingLLM déjà publiés ces dernières années. L'originalité de TurboQuant réside dans sa capacité à atteindre ce niveau de compression sans phase de fine-tuning, ce qui facilite son intégration dans des pipelines existants. Google Research n'a pas encore précisé de calendrier de disponibilité dans ses produits, mais cette publication s'inscrit dans la course plus large à réduire le coût computationnel des modèles toujours plus grands comme Gemini.

Impact France/UE

Les développeurs et entreprises européens pourraient bénéficier indirectement d'une réduction des coûts d'inférence LLM en déployant des modèles à large contexte sur du matériel grand public ou des serveurs moins coûteux.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité
1Ars Technica AI 

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source
Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %
2VentureBeat AI 

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper
1 source
10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
3MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
4MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour