
Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant
Google a dévoilé TurboQuant, un nouvel algorithme de compression destiné à optimiser l'utilisation de la mémoire dans les systèmes d'intelligence artificielle. Développé en interne au sein d'Alphabet, cet outil n'est pas un produit grand public, mais une brique technique fondamentale visant à réduire la quantité de mémoire vive nécessaire pour faire fonctionner des modèles de grande taille. La présentation a eu lieu il y a quelques jours, sans annonce de disponibilité externe pour l'instant.
L'enjeu est considérable : l'un des principaux freins au déploiement massif de l'IA reste le coût des infrastructures, notamment la mémoire GPU, extrêmement onéreuse. Un algorithme capable de compresser efficacement les poids des modèles sans dégrader leurs performances permettrait à Google de réduire significativement ses coûts opérationnels, tout en accélérant ses services — à commencer par son moteur de recherche, qui intègre désormais des résumés et réponses générés par IA à grande échelle.
La compression de modèles, ou quantification, est un champ de recherche très actif où s'affrontent les grandes entreprises tech et les laboratoires académiques. Des techniques comme GPTQ, AWQ ou la quantification 4 bits ont déjà permis des gains importants, mais Google semble vouloir pousser plus loin avec une approche maison. TurboQuant s'inscrit dans une stratégie plus large d'Alphabet pour contrôler toute la chaîne technique de l'IA — des puces (TPU) aux algorithmes d'inférence — et maintenir son avance face à Microsoft, Meta et Amazon.



