
Guide visuel des variantes d'attention dans les LLM modernes
Sebastian Raschka vient de publier une ressource de référence inédite pour comprendre les architectures des grands modèles de langage : une galerie visuelle recensant 45 architectures de LLM, accompagnée d'un article de fond sur les variantes d'attention utilisées dans les modèles open-weight les plus récents. Une initiative qui comble un vide documentaire réel dans un domaine en évolution rapide.
Le timing est révélateur : initialement prévu pour analyser DeepSeek V4 — encore inédit à l'heure où ces lignes sont écrites —, ce travail de deux semaines s'est transformé en un effort de consolidation plus ambitieux. Dans un écosystème où les architectures prolifèrent à un rythme soutenu, disposer d'une vue synthétique et visuellement claire devient un outil précieux aussi bien pour les chercheurs que pour les ingénieurs ML en entreprise.
La galerie, accessible sur le site de Raschka, propose des cartes visuelles pour chaque architecture documentée, couvrant des concepts fondamentaux comme le Multi-Head Attention (MHA) — mécanisme qui permet à chaque token d'agréger le contexte des autres tokens via plusieurs têtes d'attention parallèles — jusqu'aux variantes modernes comme le Grouped-Query Attention ou le Sliding Window Attention. Des modèles concrets comme GPT-2, OLMo 2 7B et OLMo 3 7B servent d'exemples d'implémentation. Une version poster imprimable a également été mise à disposition via Redbubble, testée en format Medium (26,9 × 23,4 pouces), avec une qualité jugée satisfaisante pour les éléments principaux.
Au-delà de la galerie elle-même, l'article replace les mécanismes d'attention dans leur contexte historique : nés avant les transformers pour pallier les limites des RNN encodeur-décodeur en traduction automatique — incapables de mémoriser l'intégralité d'une séquence longue —, ces mécanismes ont progressivement évolué pour devenir la colonne vertébrale de toute l'architecture moderne des LLM. Raschka annonce vouloir maintenir la galerie à jour au fil des nouvelles sorties, ce qui en fait potentiellement une ressource évolutive de premier plan.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


