Aller au contenu principal
RechercheMarkTechPost6sem

MIT, NVIDIA et Zhejiang University proposent TriAttention, une compression du cache KV à débit 2,5 fois supérieur

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs du MIT, de NVIDIA et de l'université du Zhejiang ont présenté TriAttention, une nouvelle méthode de compression du cache KV qui résout l'un des goulots d'étranglement les plus critiques des grands modèles de langage actuels. Publiés dans un article disponible sur arXiv (référence 2504.04921), leurs travaux montrent que TriAttention atteint la même précision que l'attention complète sur le benchmark de raisonnement mathématique AIME25 avec des séquences de 32 000 tokens, tout en offrant un débit 2,5 fois supérieur ou une réduction de la mémoire KV d'un facteur 10,7. Les meilleures méthodes concurrentes, comme SnapKV, H2O ou R-KV, n'atteignent qu'environ la moitié de cette précision pour un niveau d'efficacité équivalent.

L'enjeu est considérable pour tous ceux qui déploient des modèles de raisonnement avancés comme DeepSeek-R1 ou Qwen3. Ces modèles peuvent générer des dizaines de milliers de tokens avant de produire une réponse, et chaque token doit être stocké dans le cache KV, une structure mémoire qui grossit jusqu'à saturer complètement la mémoire GPU sur du matériel grand public. Les méthodes existantes tentent de compresser ce cache en évictant les tokens jugés peu importants, mais elles opèrent dans l'espace post-RoPE, après application du schéma d'encodage positionnel rotatif utilisé par la quasi-totalité des LLM modernes (Llama, Qwen, Mistral). Ce mécanisme fait pivoter les vecteurs Query et Key selon la position, rendant les requêtes anciennes inutilisables pour estimer l'importance des tokens récents. La fenêtre d'observation efficace se réduit alors à environ 25 requêtes, ce qui conduit à l'éviction définitive de tokens qui deviendront pourtant essentiels plus tard dans la chaîne de raisonnement.

L'innovation de TriAttention repose sur une observation faite dans l'espace pré-RoPE, avant que la rotation positionnelle ne soit appliquée. Les chercheurs ont constaté que sur Qwen3-8B, environ 90 % des têtes d'attention présentent un indice de concentration R supérieur à 0,95, signifiant que leurs vecteurs Query et Key se regroupent de façon quasi parfaite autour de centres fixes et stables, indépendants de la position ou de la séquence d'entrée. Cette propriété, qu'ils appellent concentration Q/K, permet d'estimer la pertinence des tokens sans être perturbé par l'encodage positionnel. Le résultat est particulièrement important pour les têtes de récupération, ces composants spécialisés dans l'extraction d'informations factuelles précises depuis de longs contextes, qui étaient les premières victimes des méthodes post-RoPE. En préservant les tokens réellement utiles sur l'ensemble de la fenêtre de contexte, TriAttention maintient l'intégrité des longues chaînes de pensée là où les approches précédentes échouaient.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
1MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta
2MarkTechPost 

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta

NVIDIA AI a publié Gated DeltaNet-2, une nouvelle couche d'attention linéaire conçue pour résoudre un problème précis dans les modèles de langage à mémoire récurrente. Le modèle a été entraîné à 1,3 milliard de paramètres sur 100 milliards de tokens issus du jeu de données FineWeb-Edu. Selon les benchmarks présentés dans l'article technique, il surpasse ses concurrents directs : Mamba-2, Gated DeltaNet, KDA (Kimi Delta Attention) et Mamba-3. L'innovation centrale repose sur l'introduction de deux portes vectorielles indépendantes : une porte d'effacement par canal appliquée à l'axe des clés, et une porte d'écriture par canal appliquée à l'axe des valeurs. Les deux sont produites par des projections sigmoid de la représentation du token. Le code et l'article sont disponibles publiquement via le dépôt NVlabs sur GitHub, avec des kernels Triton fusionnés pour l'entraînement sur GPU Hopper. L'enjeu est fondamental pour la prochaine génération de modèles de langage efficaces. L'attention linéaire remplace le cache clé-valeur non borné de l'attention softmax classique par un état récurrent de taille fixe, ce qui ramène le coût de traitement des séquences à une complexité linéaire et la mémoire de décodage à une constante. Mais éditer cet état compressé sans brouiller les associations déjà mémorisées est précisément le goulet d'étranglement que les architectures précédentes n'avaient pas résolu proprement. Les modèles antérieurs utilisaient une seule valeur scalaire pour contrôler à la fois l'effacement de l'ancien contenu et l'écriture du nouveau, deux opérations qui agissent sur des axes différents de l'état matriciel. Gated DeltaNet-2 sépare ces deux décisions : chaque canal peut indépendamment choisir combien il efface et combien il écrit, ce qui augmente la capacité expressive du modèle sans alourdir l'architecture globale. Cette publication s'inscrit dans une compétition technique dense autour du remplacement ou de la complémentation de l'attention softmax. DeltaNet avait introduit la règle delta, qui effectue une mise à jour active de l'état en soustrayant la valeur actuellement associée à une clé donnée. Mamba-2 avait ajouté un mécanisme d'oubli global scalaire dépendant des données. KDA, développé par l'équipe de Kimi (Moonshot AI), avait affiné le côté oubli avec un vecteur par canal, mais laissait la partie écriture avec un scalaire unique. Gated DeltaNet-2 généralise ces deux travaux : les modèles KDA et Gated DeltaNet sont mathématiquement récupérables comme cas particuliers lorsque les portes se réduisent à des scalaires identiques. NVIDIA positionne ainsi cette architecture comme un surensemble propre de l'existant, avec une implémentation hybride qui combine blocs récurrents et structure Transformer standard, ouvrant la voie à des modèles longs contextes à la fois rapides à l'inférence et précis.

UEL'architecture étant publiée en open source avec des kernels Triton, les équipes de recherche françaises et européennes peuvent l'intégrer directement dans leurs travaux sur les modèles de langage à complexité linéaire.

💬 Deux portes au lieu d'un scalaire, ça change pas le monde mais ça ferme proprement un trou que tout le monde contournait. Effacer et écrire dans l'état récurrent avec la même valeur, c'était une limitation un peu honteuse qui traînait depuis DeltaNet. Open source, kernels Triton inclus, les labos qui bossent sur l'attention linéaire vont s'en emparer.

RecherchePaper
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
3VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
4VentureBeat AI 

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

Les modèles d'IA les plus avancés échouent encore environ une fois sur trois dans des conditions réelles, selon le neuvième rapport annuel de l'AI Index publié par Stanford HAI. Sur τ-bench, un benchmark qui évalue des agents sur des tâches concrètes impliquant des échanges utilisateurs et des appels à des API externes, les meilleurs modèles actuels, dont Claude Opus 4.5, GPT-5.2 et Qwen3.5, n'atteignent qu'entre 62,9 % et 70,2 % de réussite. Pourtant, ces mêmes systèmes ont réalisé des progrès spectaculaires ailleurs : les performances sur Humanity's Last Exam ont progressé de 30 % en un an, les scores sur MMLU-Pro dépassent désormais 87 %, et la réussite sur SWE-bench Verified, qui mesure la capacité à résoudre de vrais bugs logiciels, est passée de 60 % à près de 100 % en douze mois. Sur WebArena, un environnement web simulé pour agents autonomes, le taux de succès est passé de 15 % en 2023 à 74,3 % début 2026. En cybersécurité, les modèles frontières résolvent désormais 93 % des problèmes de Cybench, contre 15 % l'an dernier. Ce décalage entre capacité et fiabilité constitue, selon Stanford HAI, le défi opérationnel central pour les directions informatiques en 2026. L'adoption de l'IA en entreprise a atteint 88 %, et les usages se multiplient dans des domaines à haute exigence d'exactitude : traitement fiscal, finance d'entreprise, droit, traitement de prêts hypothécaires, avec des taux de précision oscillant entre 60 et 90 %. Le problème n'est pas l'absence de progrès, mais leur caractère imprévisible. Les chercheurs reprennent le concept de "jagged frontier" de l'universitaire Ethan Mollick pour décrire cette frontière instable : un modèle peut décrocher une médaille d'or à l'Olympiade Internationale de Mathématiques, comme l'a fait Gemini Deep Think en 2025, résolvant cinq des six problèmes en langage naturel en moins de 4h30, et simultanément être incapable de lire l'heure de façon fiable. Ce rapport intervient dans un contexte de course aux capacités qui ne montre aucun signe de ralentissement. Stanford HAI est explicite : "Les capacités de l'IA ne plafonnent pas. Elles s'accélèrent." Les progrès en génération vidéo illustrent cette tendance : Veo 3 de Google DeepMind, testé sur plus de 18 000 vidéos générées, a démontré une capacité à simuler la flottabilité et à résoudre des labyrinthes sans entraînement spécifique sur ces tâches, suggérant que certains modèles commencent à modéliser le fonctionnement du monde physique. La question qui se pose désormais n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais comment garantir une fiabilité suffisante pour des déploiements critiques, et comment auditer des systèmes dont la complexité croissante rend l'interprétabilité de plus en plus difficile.

UELes entreprises européennes déployant l'IA dans des secteurs réglementés (finance, droit, fiscal) doivent intégrer ce taux d'échec de 30 % dans leurs stratégies de déploiement, avec des implications directes pour la conformité à l'AI Act qui exige des garanties de fiabilité pour les systèmes à haut risque.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour