Aller au contenu principal
Guide visuel des variantes d'attention dans les LLM modernes
LLMsAhead of AI6sem

Guide visuel des variantes d'attention dans les LLM modernes

Résumé IASource uniqueImpact UE
Source originale ↗·

Sebastian Raschka vient de publier une ressource de référence inédite pour comprendre les architectures des grands modèles de langage : une galerie visuelle recensant 45 architectures de LLM, accompagnée d'un article de fond sur les variantes d'attention utilisées dans les modèles open-weight les plus récents. Une initiative qui comble un vide documentaire réel dans un domaine en évolution rapide.

Le timing est révélateur : initialement prévu pour analyser DeepSeek V4 — encore inédit à l'heure où ces lignes sont écrites —, ce travail de deux semaines s'est transformé en un effort de consolidation plus ambitieux. Dans un écosystème où les architectures prolifèrent à un rythme soutenu, disposer d'une vue synthétique et visuellement claire devient un outil précieux aussi bien pour les chercheurs que pour les ingénieurs ML en entreprise.

La galerie, accessible sur le site de Raschka, propose des cartes visuelles pour chaque architecture documentée, couvrant des concepts fondamentaux comme le Multi-Head Attention (MHA) — mécanisme qui permet à chaque token d'agréger le contexte des autres tokens via plusieurs têtes d'attention parallèles — jusqu'aux variantes modernes comme le Grouped-Query Attention ou le Sliding Window Attention. Des modèles concrets comme GPT-2, OLMo 2 7B et OLMo 3 7B servent d'exemples d'implémentation. Une version poster imprimable a également été mise à disposition via Redbubble, testée en format Medium (26,9 × 23,4 pouces), avec une qualité jugée satisfaisante pour les éléments principaux.

Au-delà de la galerie elle-même, l'article replace les mécanismes d'attention dans leur contexte historique : nés avant les transformers pour pallier les limites des RNN encodeur-décodeur en traduction automatique — incapables de mémoriser l'intégralité d'une séquence longue —, ces mécanismes ont progressivement évolué pour devenir la colonne vertébrale de toute l'architecture moderne des LLM. Raschka annonce vouloir maintenir la galerie à jour au fil des nouvelles sorties, ce qui en fait potentiellement une ressource évolutive de premier plan.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova
1AWS ML Blog 

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova

La startup Artificial Genius, en partenariat avec AWS, propose une architecture de "troisième génération" de modèles de langage qui combine la puissance générative d'Amazon Nova avec une couche déterministe brevetée, éliminant les hallucinations. Contrairement aux LLMs classiques qui génèrent des réponses de manière probabiliste, leur approche utilise le modèle de façon non-générative : le modèle comprend le contexte via interpolation, mais ne génère pas la réponse par prédiction de tokens. Cette solution, entraînée via Amazon SageMaker AI, vise spécifiquement les secteurs réglementés (finance, santé) où la reproductibilité et l'auditabilité des sorties sont des exigences non négociables.

LLMsOutil
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
2MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source
3InfoQ AI 

DoorDash intègre les LLM dans sa personnalisation avancée

DoorDash a dévoilé une refonte profonde de son système de personnalisation, passant d'une logique de merchandising statique à une approche dynamique centrée sur le moment de consommation. Présenté par Sudeep Das et Pradeep Muthukrishnan, deux ingénieurs de la plateforme, ce nouveau système exploite des grands modèles de langage (LLM) pour générer des profils utilisateurs en langage naturel ainsi que des "blueprints" de contenu adaptés à chaque contexte d'usage, qu'il s'agisse d'une commande express un soir de semaine ou d'un repas planifié le week-end. L'enjeu est de taille : avec un catalogue de millions de restaurants et de produits, DoorDash se retrouvait face au problème classique de l'abondance, où la pertinence de la recommandation se dégrade à mesure que l'offre s'élargit. En combinant la capacité des LLM à interpréter l'intention immédiate de l'utilisateur avec des modèles de deep learning classiques pour le classement final, la plateforme parvient à affiner ses recommandations en temps réel, sans alourdir les couches de ranking critiques en termes de latence. Cette architecture hybride illustre une tendance croissante dans l'industrie : les LLM ne remplacent pas les systèmes de recommandation traditionnels, mais viennent enrichir la compréhension sémantique du contexte utilisateur en amont. DoorDash rejoint ainsi Amazon, Netflix et Instacart dans la course à la personnalisation contextuelle, où capturer l'intention fugace d'un utilisateur devient un avantage compétitif décisif face à des plateformes de livraison de plus en plus interchangeables.

LLMsOutil
1 source
4Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour