Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision
Google Research a présenté TurboQuant, un algorithme de quantification dit « data-oblivious » qui compresse le cache Key-Value des LLMs jusqu'à 6x, avec un gain de vitesse allant jusqu'à 8x, sans aucune perte de précision. Contrairement aux approches traditionnelles comme Product Quantization, TurboQuant ne nécessite ni calibration ni entraînement sur des données spécifiques, et exploite des opérations vectorisées compatibles avec les GPU modernes. La méthode repose sur une rotation aléatoire des vecteurs d'entrée pour uniformiser leur distribution, puis applique une quantification scalaire optimale par coordonnée, avec une correction de biais spécifique pour les produits scalaires utilisés dans les mécanismes d'attention des transformers.