Aller au contenu principal
Guide visuel des variantes d'attention dans les LLM modernes
LLMsAhead of AI13sem· 1 min de lecture

Guide visuel des variantes d'attention dans les LLM modernes

Source originale ↗·

Sebastian Raschka vient de publier une ressource de référence inédite pour comprendre les architectures des grands modèles de langage : une galerie visuelle recensant 45 architectures de LLM, accompagnée d'un article de fond sur les variantes d'attention utilisées dans les modèles open-weight les plus récents. Une initiative qui comble un vide documentaire réel dans un domaine en évolution rapide.

Le timing est révélateur : initialement prévu pour analyser DeepSeek V4 — encore inédit à l'heure où ces lignes sont écrites —, ce travail de deux semaines s'est transformé en un effort de consolidation plus ambitieux. Dans un écosystème où les architectures prolifèrent à un rythme soutenu, disposer d'une vue synthétique et visuellement claire devient un outil précieux aussi bien pour les chercheurs que pour les ingénieurs ML en entreprise.

La galerie, accessible sur le site de Raschka, propose des cartes visuelles pour chaque architecture documentée, couvrant des concepts fondamentaux comme le Multi-Head Attention (MHA) — mécanisme qui permet à chaque token d'agréger le contexte des autres tokens via plusieurs têtes d'attention parallèles — jusqu'aux variantes modernes comme le Grouped-Query Attention ou le Sliding Window Attention. Des modèles concrets comme GPT-2, OLMo 2 7B et OLMo 3 7B servent d'exemples d'implémentation. Une version poster imprimable a également été mise à disposition via Redbubble, testée en format Medium (26,9 × 23,4 pouces), avec une qualité jugée satisfaisante pour les éléments principaux.

Au-delà de la galerie elle-même, l'article replace les mécanismes d'attention dans leur contexte historique : nés avant les transformers pour pallier les limites des RNN encodeur-décodeur en traduction automatique — incapables de mémoriser l'intégralité d'une séquence longue —, ces mécanismes ont progressivement évolué pour devenir la colonne vertébrale de toute l'architecture moderne des LLM. Raschka annonce vouloir maintenir la galerie à jour au fil des nouvelles sorties, ce qui en fait potentiellement une ressource évolutive de premier plan.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova
1AWS ML Blog 

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova

La startup Artificial Genius, en partenariat avec AWS, propose une architecture de "troisième génération" de modèles de langage qui combine la puissance générative d'Amazon Nova avec une couche déterministe brevetée, éliminant les hallucinations. Contrairement aux LLMs classiques qui génèrent des réponses de manière probabiliste, leur approche utilise le modèle de façon non-générative : le modèle comprend le contexte via interpolation, mais ne génère pas la réponse par prédiction de tokens. Cette solution, entraînée via Amazon SageMaker AI, vise spécifiquement les secteurs réglementés (finance, santé) où la reproductibilité et l'auditabilité des sorties sont des exigences non négociables.

LLMsOutil
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
2MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source
Les techniques de distillation des LLM expliquées
3MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
4InfoQ AI 

DoorDash intègre les LLM dans sa personnalisation avancée

DoorDash a dévoilé une refonte profonde de son système de personnalisation, passant d'une logique de merchandising statique à une approche dynamique centrée sur le moment de consommation. Présenté par Sudeep Das et Pradeep Muthukrishnan, deux ingénieurs de la plateforme, ce nouveau système exploite des grands modèles de langage (LLM) pour générer des profils utilisateurs en langage naturel ainsi que des "blueprints" de contenu adaptés à chaque contexte d'usage, qu'il s'agisse d'une commande express un soir de semaine ou d'un repas planifié le week-end. L'enjeu est de taille : avec un catalogue de millions de restaurants et de produits, DoorDash se retrouvait face au problème classique de l'abondance, où la pertinence de la recommandation se dégrade à mesure que l'offre s'élargit. En combinant la capacité des LLM à interpréter l'intention immédiate de l'utilisateur avec des modèles de deep learning classiques pour le classement final, la plateforme parvient à affiner ses recommandations en temps réel, sans alourdir les couches de ranking critiques en termes de latence. Cette architecture hybride illustre une tendance croissante dans l'industrie : les LLM ne remplacent pas les systèmes de recommandation traditionnels, mais viennent enrichir la compréhension sémantique du contexte utilisateur en amont. DoorDash rejoint ainsi Amazon, Netflix et Instacart dans la course à la personnalisation contextuelle, où capturer l'intention fugace d'un utilisateur devient un avantage compétitif décisif face à des plateformes de livraison de plus en plus interchangeables.

LLMsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic