LLMsMarkTechPost6sem

Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision

Résumé IASource uniqueImpact UE

Google vient de présenter TurboQuant, un nouvel algorithme de quantification vectorielle capable de réduire jusqu'à 6 fois la mémoire nécessaire au cache clé-valeur (KV cache) des grands modèles de langage, tout en offrant des gains d'accélération allant jusqu'à 8x — le tout sans aucune dégradation mesurable de la précision. Une avancée qui s'attaque directement à l'un des goulots d'étranglement les plus critiques de l'inférence en contexte long.

Le cache KV est au cœur du problème de scalabilité des LLM : sa taille croît proportionnellement aux dimensions du modèle et à la longueur du contexte, saturant rapidement la mémoire à haute bande passante (HBM) et ralentissant les transferts vers la SRAM. Ce "mur mémoire" pénalise directement les performances en production, notamment pour les applications nécessitant de très longs contextes. La solution habituelle — la quantification — introduit généralement des biais dans les calculs de produits scalaires essentiels au mécanisme d'attention des transformers, ce que TurboQuant prétend résoudre de manière rigoureuse et provablement optimale.

L'approche repose sur une rotation aléatoire appliquée aux vecteurs d'entrée, forçant leurs coordonnées à suivre une distribution Beta concentrée, quasi-indépendante en haute dimension. Cela ramène le problème à une quantification scalaire 1D optimisable une seule fois, stockée en codebooks réutilisables à l'inférence — sans calibration sur des données spécifiques, contrairement aux méthodes classiques comme le Product Quantization. Pour éliminer le biais sur les produits scalaires, Google Research a développé une variante en deux étapes, TurboQuant_prod, combinant une quantification MSE à b-1 bits avec un transform QJL (Quantized Johnson-Lindenstrauss) 1 bit sur le résidu. Les benchmarks sur Llama-3.1-8B-Instruct et Ministral-7B-Instruct confirment une précision de récupération de 100% sur le test Needle-In-A-Haystack jusqu'à 104 000 tokens sous une compression 4x, et la distorsion MSE se situe à seulement un facteur ≈ 1,45 de la limite théorique absolue au niveau 1 bit.

D'un point de vue théorique, TurboQuant est garanti dans un facteur ≈ 2,7 de la borne de Shannon — un résultat rarissime pour un algorithme pratique. Sa conception data-oblivious et sa compatibilité native avec les opérations vectorisées des GPU le rendent directement déployable sans phase d'entraînement préalable, ce qui facilite son intégration dans les pipelines d'inférence existants. Si ces résultats se confirment en déploiement industriel, TurboQuant pourrait devenir un composant standard dans l'optimisation des inférences à grande échelle.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1ZDNET FR

TurboQuant : la compression algorithmique qui brise le mur de la mémoire IA

TurboQuant est une nouvelle architecture de compression vectorielle conçue pour réduire de six fois l'empreinte mémoire du KV Cache dans les grands modèles de langage (LLM), sans perte de précision. Elle s'attaque à l'un des principaux goulots d'étranglement du déploiement des LLM modernes : la saturation de la mémoire GPU à mesure que les fenêtres de contexte s'allongent. Cette avancée est significative car elle permettrait de faire tourner des modèles avec des contextes beaucoup plus larges sur du matériel existant, réduisant ainsi les coûts d'infrastructure et rendant les LLM performants plus accessibles. Une division par six de la mémoire nécessaire change concrètement ce qui est faisable sur une seule carte GPU. Les fenêtres de contexte des LLM ont explosé ces deux dernières années, passant de quelques milliers à plusieurs centaines de milliers de tokens, créant une pression croissante sur les ressources matérielles et rendant la compression du KV Cache un enjeu central de l'optimisation des modèles.

LLMsActu

1 source

2Le Big Data

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

Google Research a présenté TurboQuant lors de la conférence ICLR 2026, un algorithme de quantification conçu pour résoudre le principal goulot d'étranglement des grands modèles de langage : le KV Cache. Sur des serveurs équipés de GPU NVIDIA H100, les tests montrent que TurboQuant accélère le calcul de l'attention par un facteur huit tout en divisant par six l'empreinte mémoire, grâce à une quantification à 3 bits par valeur. Techniquement, l'algorithme abandonne la compression statique au profit d'une architecture hybride combinant PolarQuant, qui normalise les données sur une hypersphère, et le codage QJL, qui projette les vecteurs en autorisant une quantification à 1 bit basée sur le signe. Contrairement à des approches concurrentes comme GPTQ ou AWQ, TurboQuant ne nécessite aucune calibration préalable et s'adapte en temps réel au flux de données entrant. L'impact concret est significatif pour les équipes qui déploient des modèles en production. Un modèle de 8 milliards de paramètres traitant 32 000 tokens sature rapidement la VRAM disponible, forçant jusqu'ici les opérateurs à empiler de la mémoire coûteuse sur des serveurs haut de gamme. TurboQuant casse cette logique d'escalade matérielle : des tâches jusqu'alors réservées à des supercalculateurs deviennent accessibles sur des infrastructures classiques. Les benchmarks "needle-in-a-haystack" confirment que la précision logique reste quasi intacte sous forte compression, et des documents de plusieurs centaines de pages peuvent désormais être analysés en une seule requête. Les grands fournisseurs de cloud commencent à adopter ce protocole pour remplacer leurs méthodes de quantification statique, attirés par un débit de tokens supérieur même sous charge élevée. Ce développement s'inscrit dans une tension structurelle qui traverse l'industrie de l'IA depuis deux ans : la demande de modèles toujours plus grands se heurte aux limites physiques du silicium, et l'infrastructure représente désormais le coût dominant avant même la valeur du service rendu. Les approches précédentes comme QLoRA ciblaient les couches linéaires du modèle, sans s'attaquer au KV Cache lui-même, là où la consommation mémoire est la plus critique lors de l'inférence. TurboQuant change de cible. La question qui fait encore débat dans la communauté concerne son intégration aux pipelines de production actuels, standardisés autour d'outils comme vLLM ou TensorRT-LLM, et la robustesse de l'approche sur des architectures de modèles différentes de celles testées par Google Research.

UELes équipes ML et fournisseurs cloud européens pourraient réduire leurs coûts d'infrastructure GPU en adoptant TurboQuant pour l'inférence de grands modèles, mais l'intégration aux pipelines de production reste à valider.

LLMsPaper

1 source

3Frandroid

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Google a présenté TurboQuant, une méthode de quantification avancée capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage, sans dévoiler le code source. Face à cette rétention, un développeur indépendant a décidé d'agir seul : en sept jours seulement, en s'appuyant sur l'assistant IA Claude d'Anthropic, il a réimplémenté la technique à partir des seules informations disponibles dans l'article scientifique de Google. Le résultat est fonctionnel et permet de faire tourner des modèles de plusieurs dizaines de milliards de paramètres sur un MacBook Air standard. Cet exploit illustre un changement de paradigme majeur dans l'accès à l'IA. Jusqu'ici, les modèles les plus puissants exigeaient des GPU professionnels avec des dizaines de gigaoctets de VRAM, réservant leur usage aux entreprises ou aux chercheurs disposant d'infrastructure lourde. TurboQuant contourne cette contrainte en compressant les poids des modèles avec une précision inédite, préservant les performances tout en divisant l'occupation mémoire. Si la méthode se généralise, elle pourrait démocratiser l'inférence locale pour des millions d'utilisateurs. La situation s'inscrit dans une tension croissante entre les laboratoires qui publient des recherches sans ouvrir le code — pratique de plus en plus courante chez Google, OpenAI ou Anthropic — et une communauté open source réactive, capable de combler les lacunes à vitesse record. Ce cas rappelle celui de llama.cpp ou d'autres réimplémentations communautaires qui ont précédé des publications officielles. La prochaine étape sera d'intégrer cette technique dans des outils grand public comme Ollama ou LM Studio, accélérant encore la course vers l'IA locale accessible à tous.

LLMsPaper

1 source

4MarkTechPost

Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité

Google a annoncé le lancement de drafters Multi-Token Prediction (MTP) pour sa famille de modèles Gemma 4, quelques semaines seulement après que cette gamme a franchi les 60 millions de téléchargements. Cette architecture spécialisée de décodage spéculatif permet de tripler la vitesse d'inférence, soit un gain de 3x, sans aucune perte de qualité ni de précision dans les réponses générées. Les drafters sont disponibles pour plusieurs tailles de modèles, y compris les variantes E2B et E4B conçues pour fonctionner sur appareils mobiles et équipements edge. Le problème que cette technologie résout est fondamental : les grands modèles de langage génèrent les tokens un par un, de manière séquentielle, ce qui oblige le système à charger continuellement des milliards de paramètres depuis la mémoire vidéo vers les unités de calcul. Le vrai goulot d'étranglement n'est pas la puissance brute du GPU, mais la bande passante mémoire, les processeurs restent largement sous-utilisés pendant que les données transitent. L'approche MTP contourne ce problème en découplant la génération de la vérification : un petit modèle "drafter" propose rapidement plusieurs tokens en avance, puis le modèle cible principal (comme Gemma 4 31B) vérifie l'ensemble de ces suggestions en un seul passage parallèle. Si les tokens proposés sont acceptés, l'application peut en sortir toute une séquence, plus un token supplémentaire généré par le modèle cible, dans le même temps qu'il aurait fallu pour en produire un seul. Le gain de vitesse est dit "sans perte" : la sortie finale est strictement identique à ce que le modèle aurait produit seul. Sur le plan technique, Google a introduit plusieurs optimisations architecturales pour maximiser l'efficacité. Les drafters partagent le cache KV (key-value cache) du modèle cible, ce qui évite de recalculer les contextes d'attention déjà traités. Pour les modèles edge E2B et E4B, une technique de clustering dans la couche d'embedding accélère spécifiquement le calcul des logits, l'étape qui convertit les représentations internes du modèle en probabilités sur le vocabulaire, particulièrement coûteuse sur du matériel contraint. Cette annonce s'inscrit dans une course industrielle plus large à l'efficacité d'inférence : réduire les coûts de déploiement et la latence est devenu aussi stratégique que l'amélioration des capacités brutes des modèles, surtout à mesure que les LLM s'intègrent dans des applications temps réel et des appareils grand public.

UELes développeurs et entreprises européens déployant Gemma 4 peuvent tripler leurs débits d'inférence sans surcoût matériel, notamment pour les usages edge et mobile.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour