Aller au contenu principal
Auto-attention exclusive
RechercheApple Machine Learning13sem· 1 min de lecture

Auto-attention exclusive

Source originale ↗·

Une équipe de chercheurs propose une modification simple mais efficace du mécanisme d'auto-attention au cœur des Transformers : l'auto-attention exclusive (XSA, pour Exclusive Self-Attention). Cette variante améliore les capacités de modélisation de séquences sans bouleverser l'architecture existante.

L'idée centrale repose sur une contrainte appliquée à l'attention : au lieu de laisser chaque token s'appuyer sur sa propre représentation vectorielle, XSA force le modèle à ne capter que les informations orthogonales à son propre vecteur de valeur. En excluant ainsi l'information de position propre au token, le mécanisme est contraint de mieux exploiter le contexte environnant — ce qui est précisément l'objectif d'un bon modèle de langage.

Les résultats sont mesurés sur la tâche standard de modélisation du langage et montrent que XSA surpasse systématiquement l'auto-attention classique sur toutes les tailles de modèles testées, jusqu'à 2,7 milliards de paramètres. Fait notable : les gains augmentent à mesure que la longueur des séquences s'allonge, ce qui suggère un avantage particulièrement marqué pour les contextes longs — un enjeu central dans le développement des LLMs actuels.

Cette contribution s'inscrit dans un courant de recherche visant à optimiser les briques fondamentales des Transformers sans en alourdir le coût computationnel. Si ces gains se confirment à plus grande échelle et sur des benchmarks variés, XSA pourrait devenir une modification standard intégrée dans les prochaines générations de modèles de langage.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les agents autonomes face au défi entre intention et exécution
1Amazon Science 

Les agents autonomes face au défi entre intention et exécution

Des chercheurs en intelligence artificielle ont publié une étude approfondie sur ce qu'ils nomment l'« écart entre intention et exécution » dans les systèmes d'agents IA, le fossé entre ce qu'un modèle de langage entend faire et ce que le logiciel qui l'entoure réalise concrètement. Pour l'illustrer : un modèle peut vouloir corriger une seule instance d'une fonction dans du code, mais le harnais, le logiciel qui orchestre ses actions et gère ses interactions avec les outils, en modifie involontairement plusieurs. Pour combler cet écart sans aucun ajustement spécifique à une tâche, les chercheurs ont développé Simple Strands Agent (SSA), un harnais léger et personnalisable à agent unique. Testé sur plusieurs benchmarks de référence, dont SWE-Pro, SWE-Verified (qui évaluent la correction automatique de dépôts de code réels) et Terminal-Bench2 (environnements de terminal interactifs), SSA obtient des gains de performance constants sur plusieurs familles de modèles. Ce travail pointe un problème structurel souvent ignoré dans l'évaluation des agents IA : les performances publiées sur les benchmarks reflètent autant la qualité de l'infrastructure d'évaluation que la capacité intrinsèque du modèle. Des facteurs apparemment triviaux, délais d'expiration lors des interactions avec l'environnement, stabilité de l'infrastructure, contraintes de ressources, provoquent des variations de performance significatives. Les auteurs baptisent ce phénomène le « benchmaxing » : la tendance à optimiser les scores publiés sans nécessairement améliorer la capacité réelle du système. Pour les équipes qui déploient des agents en production, cela signifie qu'un gain impressionnant sur un benchmark peut disparaître entièrement dans un contexte légèrement différent, rendant les comparaisons entre systèmes peu fiables. L'étude s'inscrit dans un débat plus large sur la conception des agents IA. Pendant des années, la priorité a été donnée aux optimisations spécifiques : prompts ajustés, outils sur mesure, graphes d'exécution spécialisés. Or les chercheurs montrent que ces gains sont souvent fragiles, ce qui fonctionne pour un modèle ou une version donnée se dégrade ou régresse avec les modèles suivants, car ces optimisations surajustent implicitement le comportement d'un modèle particulier. La conclusion est qu'il faut désormais identifier des principes de conception invariants, valables quel que soit le modèle sous-jacent. L'interface entre modèle et harnais devient ainsi un domaine de recherche central, à l'image du rôle d'un système d'exploitation vis-à-vis d'un processeur. Les auteurs soulignent également que cette conception n'est pas entièrement agnostique au modèle : différentes familles de modèles ont des préférences distinctes en matière d'utilisation des outils et d'interprétation du contexte, faisant de la coconception modèle-harnais un levier décisif pour atteindre des performances optimales.

RecherchePaper
1 source
L'attention paginée dans les grands modèles de langage
2MarkTechPost 

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper
1 source
EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM
3MarkTechPost 

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

L'équipe EAGLE, en collaboration avec les équipes vLLM et TorchSpec, a publié le 26 mai 2026 EAGLE 3.1, une mise à jour ciblée de son algorithme de décodage spéculatif pour l'inférence de grands modèles de langage. Le décodage spéculatif consiste à utiliser un petit modèle rapide pour proposer plusieurs tokens en avance, que le grand modèle cible valide ensuite en parallèle, accélérant significativement le traitement. EAGLE 3.1 introduit deux corrections architecturales précises : une normalisation FC appliquée après chaque état caché du modèle cible, et une rétroaction des états cachés post-normalisation vers l'étape de décodage suivante. L'équipe a également entraîné et publié en open source un modèle draft EAGLE 3.1 pour Kimi K2.6, disponible sur HuggingFace, servant de référence de déploiement en conditions réelles. Ces corrections résolvent un problème de fiabilité concret baptisé "attention drift" : à mesure que la profondeur de spéculation augmente, le petit modèle draft commence à focaliser son attention sur ses propres sorties plutôt que sur le contexte original, dégradant la stabilité et le taux d'acceptation des tokens proposés. En pratique, cela se traduisait par des performances médiocres sur les entrées longues, les templates de chat non standards ou les prompts système hors distribution, précisément les conditions rencontrées en production. Avec EAGLE 3.1, le taux d'acceptation en contexte long est jusqu'à deux fois plus élevé qu'avec EAGLE 3, et la méthode se comporte désormais de manière cohérente quel que soit l'environnement de déploiement. L'intégration dans vLLM est rétrocompatible : les checkpoints EAGLE 3 existants fonctionnent sans modification. La famille EAGLE est devenue l'une des implémentations de décodage spéculatif les plus déployées, tant en recherche qu'en production. L'enjeu derrière cette mise à jour est stratégique : les équipes d'inférence cherchent à réduire la latence et le coût de servir des modèles toujours plus grands, et le décodage spéculatif est l'une des rares techniques permettant des gains mesurables sans changer le modèle cible. La plateforme TorchSpec, qui assure désormais le support d'entraînement pour EAGLE 3.1, vise à réduire le coût d'expérimentation pour les prochaines générations d'algorithmes spéculatifs. La publication simultanée d'un modèle draft pour Kimi K2.6 suggère une convergence entre les équipes de recherche et les fournisseurs de modèles pour standardiser ce type d'optimisation à l'échelle industrielle.

UELes équipes françaises et européennes déployant des LLMs en production via vLLM peuvent bénéficier d'une réduction de latence et d'un meilleur taux d'acceptation en contexte long, sans modifier leur infrastructure existante.

💬 Ce qu'ils appellent "attention drift", c'est exactement ce qui fait foirer le décodage spéculatif sur les prompts longs en prod, et personne n'avait vraiment réglé ça proprement jusqu'ici. EAGLE 3.1 corrige ça avec deux ajustements architecturaux chirurgicaux, et le résultat parle : taux d'acceptation doublé en contexte long. Que les checkpoints EAGLE 3 tournent sans modification, c'est le détail qui fait toute la différence pour les équipes qui ont déjà du déploiement en route.

RecherchePaper
1 source
Personne n'a inventé l'attention. Un doctorant frustré n'avait plus d'autres options
4Towards AI 

Personne n'a inventé l'attention. Un doctorant frustré n'avait plus d'autres options

Dzmitry Bahdanau n'avait pas l'intention d'inventer une architecture révolutionnaire — il cherchait simplement à améliorer la traduction de longues phrases avec des réseaux de neurones. Confronté aux limitations des RNN traditionnels pour gérer les dépendances à longue portée, il a développé le mécanisme d'attention, qui transforme la façon dont les modèles accèdent à l'information en mémoire. Cette innovation, née d'un problème pratique de traduction automatique, est aujourd'hui au cœur de tous les grands modèles de langage.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic