Aller au contenu principal
Avancées récentes en architectures LLM : partage KV, mHC et attention compressée
LLMsAhead of AI6sem· 2 min de lecture

Avancées récentes en architectures LLM : partage KV, mHC et attention compressée

Source originale ↗·
Avancées récentes en architectures LLM : partage KV, mHC et attention compressée
▶ Voir sur YouTube

Depuis début avril 2026, une vague de nouveaux modèles de langage open-weight a déferlé, et une tendance architecturale se dégage clairement : l'efficacité sur les contextes longs. Google a ouvert le bal avec sa suite Gemma 4, déclinée en quatre variantes, les modèles compacts E2B et E4B pour appareils embarqués, un modèle mixte d'experts (MoE) à 26 milliards de paramètres, et un modèle dense à 31 milliards. Dans la foulée, ZAYA1-8B, Laguna XS.2 et DeepSeek V4 ont chacun introduit leurs propres innovations internes. Ce que ces modèles ont en commun, c'est un ensemble de techniques nouvelles pour réduire la taille du KV-cache, le trafic mémoire et le coût du mécanisme d'attention, trois goulots d'étranglement devenus critiques à mesure que les modèles de raisonnement et les agents IA manipulent des séquences de plus en plus longues.

Ces innovations architecturales ont des conséquences concrètes sur les coûts d'inférence et les capacités des systèmes déployés en production. Le partage de KV entre couches (cross-layer attention), utilisé dans Gemma 4 E2B et E4B, permet aux couches profondes de réutiliser les états clé-valeur calculés dans les couches précédentes, réduisant ainsi la mémoire nécessaire sur de longs contextes sans entraîner de pertes de qualité majeures. Laguna XS.2 adopte une approche différente, en allouant un budget d'attention variable selon les couches, certaines couches traitent l'intégralité du contexte, d'autres utilisent une fenêtre glissante restreinte. ZAYA1-8B intègre une attention convolutionnelle compressée, tandis que DeepSeek V4 combine une attention multi-head compressée (mHC) avec sa propre variante d'attention compacte. Ces techniques sont présentées comme des ajustements discrets dans les schémas d'architecture, mais représentent en réalité des choix de conception non triviaux avec des implications profondes sur la façon dont les modèles gèrent la mémoire à grande échelle.

Ces développements s'inscrivent dans une évolution plus large du domaine : les workflows agentiques et les modèles de raisonnement, qui maintiennent des contextes de plusieurs dizaines de milliers de tokens sur de longues interactions, ont rendu les approches d'attention standard trop coûteuses à opérer efficacement. Le KV-cache, qui stocke les états intermédiaires pour éviter de recalculer l'attention à chaque nouveau token, peut consommer plusieurs gigaoctets de VRAM sur de longs contextes, un problème particulièrement aigu pour les déploiements locaux. Le fait que Google, DeepSeek et des acteurs plus modestes comme ZAYA1 et Laguna convergent tous vers des solutions similaires en quelques semaines suggère que l'optimisation de l'attention est devenue la priorité architecturale centrale de 2026, supplantant la simple course aux paramètres.

Impact France/UE

Les modèles open-weight à architecture optimisée (Gemma 4, DeepSeek V4) permettent aux entreprises et institutions européennes de déployer des LLMs efficacement en local, réduisant leur dépendance aux infrastructures cloud américaines.

💬 L'analyse de Mathieu

Le KV-cache qui bouffe plusieurs Go de VRAM sur les longs contextes, c'était devenu le vrai goulot d'étranglement, et là on voit tout le monde arriver aux mêmes conclusions en même temps : Google, DeepSeek, Laguna. Quand des acteurs de cette envergure convergent indépendamment vers les mêmes solutions en quelques semaines, c'est pas du hasard. Ça va changer ce qu'on peut faire tourner en local.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
2MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source
MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
3MarkTechPost 

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu
1 source
4MarkTechPost 

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

Meta Superintelligence Labs a dévoilé Muse Spark, le premier modèle de sa famille Muse, marquant une étape majeure dans la course aux modèles de raisonnement multimodaux. Conçu nativement pour traiter texte et images de manière simultanée -- et non via un module visuel ajouté après coup -- Muse Spark intègre l'utilisation d'outils, un raisonnement visuel en chaîne de pensée, et une orchestration multi-agents. Sur le benchmark ScreenSpot Pro, qui évalue la capacité à localiser des éléments d'interface dans des captures d'écran, le modèle obtient un score de 72,2 (84,1 avec outils Python), devançant Claude Opus 4.6 Max à 57,7 et GPT-5.4 Xhigh à 39,0. Ces chiffres positionnent Muse Spark parmi les meilleurs modèles actuels sur les tâches combinant vision et langage. Ce qui distingue techniquement Muse Spark, c'est l'approche de Meta autour de trois axes de montée en puissance : le préentraînement, l'apprentissage par renforcement (RL), et le raisonnement au moment de l'inférence. Sur le préentraînement, Meta a entièrement reconstruit sa pile technique en neuf mois, atteignant les mêmes capacités que son précédent modèle Llama 4 Maverick avec dix fois moins de calcul. Le RL, appliqué après le préentraînement, entraîne le modèle à produire de bonnes réponses plutôt qu'à simplement prédire des tokens -- Meta annonce une progression log-linéaire stable sur les métriques pass@1 et pass@16. Enfin, le raisonnement à l'inférence introduit un phénomène que l'équipe appelle "thought compression" : le modèle apprend d'abord à penser plus longtemps pour mieux répondre, puis une pénalité sur la longueur de la réflexion le force à comprimer son raisonnement, avant qu'il n'étende à nouveau ses solutions pour atteindre de meilleures performances. Cette dynamique produit un modèle plus efficace par token généré. Le mode Contemplating représente peut-être l'innovation architecturale la plus audacieuse : Muse Spark peut orchestrer plusieurs agents en parallèle au moment de l'inférence, chacun explorant une piste de raisonnement différente. Ce choix s'inscrit dans une stratégie plus large de Meta, qui investit massivement dans l'infrastructure -- dont le data center Hyperion -- pour soutenir ces trois axes de scaling simultanément. La division a été rebaptisée Meta Superintelligence Labs, signalant une ambition explicite de leadership sur l'AGI. Avec OpenAI, Google DeepMind et Anthropic qui poussent chacun leurs propres architectures de raisonnement, la sortie de Muse Spark illustre que la prochaine frontière ne sera pas seulement la taille des modèles, mais la manière dont ils apprennent à penser -- et à comprimer cette pensée -- avant de répondre.

UELes développeurs et entreprises européens pourront utiliser un nouveau modèle multimodal de référence, mais aucun impact réglementaire ou commercial direct sur la France ou l'UE n'est à noter.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic