Aller au contenu principal
TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche
RechercheNext INpact12sem· 1 min de lecture

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

Source originale ↗·

Des chercheurs de Google ont publié un ensemble d'algorithmes de quantification baptisé TurboQuant, annoncé officiellement le 24 mars 2026, bien que le papier de recherche soit disponible sur arXiv depuis le 28 avril 2025. Ces algorithmes permettent une compression massive des modèles de langage (LLM) en réduisant significativement leur empreinte mémoire, en particulier lors de l'inférence générative. La recherche a été acceptée pour présentation à la conférence ICLR 2026, qui se tiendra du 23 au 27 avril à Rio de Janeiro — l'une des références mondiales en apprentissage automatique.

Le problème résolu est concret et coûteux : les LLM modernes s'appuient sur des fenêtres contextuelles de plus en plus larges et des milliards de paramètres, ce qui exige des quantités croissantes de RAM pour fonctionner efficacement. La quantification vectorielle existait déjà comme technique de compression, mais elle introduisait systématiquement un surcoût mémoire cumulatif qui en limitait les bénéfices. TurboQuant prétend répondre à ce problème de façon « optimale » au sens information-théorique du terme — une référence directe aux travaux de Shannon sur la compression sans perte. Si les résultats tiennent à l'échelle, cela pourrait réduire les coûts d'infrastructure pour les entreprises déployant des LLM en production, et rendre des modèles plus puissants accessibles sur du matériel moins onéreux.

La sortie de TurboQuant s'inscrit dans une course intense à l'optimisation mémoire, alors que le prix et la disponibilité des GPU et de la RAM VRAM haute performance constituent des goulets d'étranglement majeurs pour l'industrie. Des approches comme GPTQ, AWQ ou bitsandbytes ont déjà popularisé la quantification à 4 ou 8 bits, mais chacune implique des compromis en précision ou en vitesse. Google entre sur ce terrain avec une approche fondée sur la théorie de l'information, ce qui lui confère une légitimité académique solide. La prochaine étape sera l'adoption par la communauté open source et la validation sur des modèles de grande taille en dehors des laboratoires Google.

Impact France/UE

Impact indirect : si les résultats sont confirmés à grande échelle, les entreprises européennes déployant des LLM en production pourraient réduire significativement leurs coûts d'infrastructure GPU/VRAM.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité
1Ars Technica AI 

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source
Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %
2VentureBeat AI 

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
3MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source
MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes
4arXiv cs.RO 

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

Des chercheurs ont présenté MotionBricks, un nouveau cadre de génération de mouvements en temps réel capable de modéliser plus de 350 000 clips d'animation avec un seul modèle unifié. Publié sur arXiv, le système repose sur deux composants centraux : un backbone génératif modulaire à espace latent, conçu pour fonctionner sous contraintes de calcul sévères, et des "smart primitives", une interface unifiée permettant de contrôler navigation et interactions avec les objets. Les performances annoncées sont remarquables : 15 000 images par seconde à une latence de 2 millisecondes, sur des jeux de données open source et propriétaires de tailles variées. Le système a également été déployé sur le robot humanoïde Unitree G1, démontrant son applicabilité au contrôle robotique en temps réel. L'enjeu principal de MotionBricks est de combler le fossé persistant entre la recherche en synthèse de mouvement et les contraintes de production industrielle. Jusqu'ici, les méthodes génératives modernes, pourtant puissantes, se dégradaient fortement dès qu'elles devaient opérer en temps réel avec un large répertoire de compétences de mouvement. MotionBricks résout ce problème en permettant à des applications de se construire en mode "plug-and-play", comme assembler des briques, sans nécessiter de connaissances expertes en animation. Le contrôle multimodal fin, commandes de vitesse, sélection de style, keyframes précis, que les modèles existants pilotés par texte ou tags ne pouvaient pas offrir, devient ici accessible de manière intuitive. La synthèse de mouvements procédurale et les arbres d'animation traditionnels dominent encore les moteurs de jeux et la production 3D temps réel, faute d'alternatives génératives assez rapides et flexibles. Des projets comme Motion Diffusion Model ou MDM ont démontré la qualité des approches diffusion, mais butaient précisément sur les contraintes de latence. MotionBricks s'inscrit dans un courant plus large visant à rendre les modèles génératifs opérationnels en production, avec des implications directes pour l'industrie du jeu vidéo, les studios d'animation et la robotique humanoïde, un secteur en pleine accélération avec des acteurs comme Boston Dynamics, Figure AI ou Unitree.

UELes studios d'animation et développeurs de jeux vidéo européens pourraient à terme bénéficier de cette technologie pour produire des personnages animés en temps réel sans expertise spécialisée en animation.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic