Aller au contenu principal
Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision
LLMsMarkTechPost12sem· 2 min de lecture

Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision

Source originale ↗·

Google vient de présenter TurboQuant, un nouvel algorithme de quantification vectorielle capable de réduire jusqu'à 6 fois la mémoire nécessaire au cache clé-valeur (KV cache) des grands modèles de langage, tout en offrant des gains d'accélération allant jusqu'à 8x — le tout sans aucune dégradation mesurable de la précision. Une avancée qui s'attaque directement à l'un des goulots d'étranglement les plus critiques de l'inférence en contexte long.

Le cache KV est au cœur du problème de scalabilité des LLM : sa taille croît proportionnellement aux dimensions du modèle et à la longueur du contexte, saturant rapidement la mémoire à haute bande passante (HBM) et ralentissant les transferts vers la SRAM. Ce "mur mémoire" pénalise directement les performances en production, notamment pour les applications nécessitant de très longs contextes. La solution habituelle — la quantification — introduit généralement des biais dans les calculs de produits scalaires essentiels au mécanisme d'attention des transformers, ce que TurboQuant prétend résoudre de manière rigoureuse et provablement optimale.

L'approche repose sur une rotation aléatoire appliquée aux vecteurs d'entrée, forçant leurs coordonnées à suivre une distribution Beta concentrée, quasi-indépendante en haute dimension. Cela ramène le problème à une quantification scalaire 1D optimisable une seule fois, stockée en codebooks réutilisables à l'inférence — sans calibration sur des données spécifiques, contrairement aux méthodes classiques comme le Product Quantization. Pour éliminer le biais sur les produits scalaires, Google Research a développé une variante en deux étapes, TurboQuant_prod, combinant une quantification MSE à b-1 bits avec un transform QJL (Quantized Johnson-Lindenstrauss) 1 bit sur le résidu. Les benchmarks sur Llama-3.1-8B-Instruct et Ministral-7B-Instruct confirment une précision de récupération de 100% sur le test Needle-In-A-Haystack jusqu'à 104 000 tokens sous une compression 4x, et la distorsion MSE se situe à seulement un facteur ≈ 1,45 de la limite théorique absolue au niveau 1 bit.

D'un point de vue théorique, TurboQuant est garanti dans un facteur ≈ 2,7 de la borne de Shannon — un résultat rarissime pour un algorithme pratique. Sa conception data-oblivious et sa compatibilité native avec les opérations vectorisées des GPU le rendent directement déployable sans phase d'entraînement préalable, ce qui facilite son intégration dans les pipelines d'inférence existants. Si ces résultats se confirment en déploiement industriel, TurboQuant pourrait devenir un composant standard dans l'optimisation des inférences à grande échelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

TurboQuant : la compression algorithmique qui brise le mur de la mémoire IA
1ZDNET FR 

TurboQuant : la compression algorithmique qui brise le mur de la mémoire IA

TurboQuant est une nouvelle architecture de compression vectorielle conçue pour réduire de six fois l'empreinte mémoire du KV Cache dans les grands modèles de langage (LLM), sans perte de précision. Elle s'attaque à l'un des principaux goulots d'étranglement du déploiement des LLM modernes : la saturation de la mémoire GPU à mesure que les fenêtres de contexte s'allongent. Cette avancée est significative car elle permettrait de faire tourner des modèles avec des contextes beaucoup plus larges sur du matériel existant, réduisant ainsi les coûts d'infrastructure et rendant les LLM performants plus accessibles. Une division par six de la mémoire nécessaire change concrètement ce qui est faisable sur une seule carte GPU. Les fenêtres de contexte des LLM ont explosé ces deux dernières années, passant de quelques milliers à plusieurs centaines de milliers de tokens, créant une pression croissante sur les ressources matérielles et rendant la compression du KV Cache un enjeu central de l'optimisation des modèles.

LLMsActu
1 source
De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?
2Le Big Data 

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

Google Research a présenté TurboQuant lors de la conférence ICLR 2026, un algorithme de quantification conçu pour résoudre le principal goulot d'étranglement des grands modèles de langage : le KV Cache. Sur des serveurs équipés de GPU NVIDIA H100, les tests montrent que TurboQuant accélère le calcul de l'attention par un facteur huit tout en divisant par six l'empreinte mémoire, grâce à une quantification à 3 bits par valeur. Techniquement, l'algorithme abandonne la compression statique au profit d'une architecture hybride combinant PolarQuant, qui normalise les données sur une hypersphère, et le codage QJL, qui projette les vecteurs en autorisant une quantification à 1 bit basée sur le signe. Contrairement à des approches concurrentes comme GPTQ ou AWQ, TurboQuant ne nécessite aucune calibration préalable et s'adapte en temps réel au flux de données entrant. L'impact concret est significatif pour les équipes qui déploient des modèles en production. Un modèle de 8 milliards de paramètres traitant 32 000 tokens sature rapidement la VRAM disponible, forçant jusqu'ici les opérateurs à empiler de la mémoire coûteuse sur des serveurs haut de gamme. TurboQuant casse cette logique d'escalade matérielle : des tâches jusqu'alors réservées à des supercalculateurs deviennent accessibles sur des infrastructures classiques. Les benchmarks "needle-in-a-haystack" confirment que la précision logique reste quasi intacte sous forte compression, et des documents de plusieurs centaines de pages peuvent désormais être analysés en une seule requête. Les grands fournisseurs de cloud commencent à adopter ce protocole pour remplacer leurs méthodes de quantification statique, attirés par un débit de tokens supérieur même sous charge élevée. Ce développement s'inscrit dans une tension structurelle qui traverse l'industrie de l'IA depuis deux ans : la demande de modèles toujours plus grands se heurte aux limites physiques du silicium, et l'infrastructure représente désormais le coût dominant avant même la valeur du service rendu. Les approches précédentes comme QLoRA ciblaient les couches linéaires du modèle, sans s'attaquer au KV Cache lui-même, là où la consommation mémoire est la plus critique lors de l'inférence. TurboQuant change de cible. La question qui fait encore débat dans la communauté concerne son intégration aux pipelines de production actuels, standardisés autour d'outils comme vLLM ou TensorRT-LLM, et la robustesse de l'approche sur des architectures de modèles différentes de celles testées par Google Research.

UELes équipes ML et fournisseurs cloud européens pourraient réduire leurs coûts d'infrastructure GPU en adoptant TurboQuant pour l'inférence de grands modèles, mais l'intégration aux pipelines de production reste à valider.

LLMsPaper
1 source
Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA
3Frandroid 

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Google a présenté TurboQuant, une méthode de quantification avancée capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage, sans dévoiler le code source. Face à cette rétention, un développeur indépendant a décidé d'agir seul : en sept jours seulement, en s'appuyant sur l'assistant IA Claude d'Anthropic, il a réimplémenté la technique à partir des seules informations disponibles dans l'article scientifique de Google. Le résultat est fonctionnel et permet de faire tourner des modèles de plusieurs dizaines de milliards de paramètres sur un MacBook Air standard. Cet exploit illustre un changement de paradigme majeur dans l'accès à l'IA. Jusqu'ici, les modèles les plus puissants exigeaient des GPU professionnels avec des dizaines de gigaoctets de VRAM, réservant leur usage aux entreprises ou aux chercheurs disposant d'infrastructure lourde. TurboQuant contourne cette contrainte en compressant les poids des modèles avec une précision inédite, préservant les performances tout en divisant l'occupation mémoire. Si la méthode se généralise, elle pourrait démocratiser l'inférence locale pour des millions d'utilisateurs. La situation s'inscrit dans une tension croissante entre les laboratoires qui publient des recherches sans ouvrir le code — pratique de plus en plus courante chez Google, OpenAI ou Anthropic — et une communauté open source réactive, capable de combler les lacunes à vitesse record. Ce cas rappelle celui de llama.cpp ou d'autres réimplémentations communautaires qui ont précédé des publications officielles. La prochaine étape sera d'intégrer cette technique dans des outils grand public comme Ollama ou LM Studio, accélérant encore la course vers l'IA locale accessible à tous.

LLMsPaper
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
4Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic