Aller au contenu principal
EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM
RechercheMarkTechPost57min

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

Résumé IASource uniqueImpact UE
Source originale ↗·

L'équipe EAGLE, en collaboration avec les équipes vLLM et TorchSpec, a publié le 26 mai 2026 EAGLE 3.1, une mise à jour ciblée de son algorithme de décodage spéculatif pour l'inférence de grands modèles de langage. Le décodage spéculatif consiste à utiliser un petit modèle rapide pour proposer plusieurs tokens en avance, que le grand modèle cible valide ensuite en parallèle, accélérant significativement le traitement. EAGLE 3.1 introduit deux corrections architecturales précises : une normalisation FC appliquée après chaque état caché du modèle cible, et une rétroaction des états cachés post-normalisation vers l'étape de décodage suivante. L'équipe a également entraîné et publié en open source un modèle draft EAGLE 3.1 pour Kimi K2.6, disponible sur HuggingFace, servant de référence de déploiement en conditions réelles.

Ces corrections résolvent un problème de fiabilité concret baptisé "attention drift" : à mesure que la profondeur de spéculation augmente, le petit modèle draft commence à focaliser son attention sur ses propres sorties plutôt que sur le contexte original, dégradant la stabilité et le taux d'acceptation des tokens proposés. En pratique, cela se traduisait par des performances médiocres sur les entrées longues, les templates de chat non standards ou les prompts système hors distribution, précisément les conditions rencontrées en production. Avec EAGLE 3.1, le taux d'acceptation en contexte long est jusqu'à deux fois plus élevé qu'avec EAGLE 3, et la méthode se comporte désormais de manière cohérente quel que soit l'environnement de déploiement. L'intégration dans vLLM est rétrocompatible : les checkpoints EAGLE 3 existants fonctionnent sans modification.

La famille EAGLE est devenue l'une des implémentations de décodage spéculatif les plus déployées, tant en recherche qu'en production. L'enjeu derrière cette mise à jour est stratégique : les équipes d'inférence cherchent à réduire la latence et le coût de servir des modèles toujours plus grands, et le décodage spéculatif est l'une des rares techniques permettant des gains mesurables sans changer le modèle cible. La plateforme TorchSpec, qui assure désormais le support d'entraînement pour EAGLE 3.1, vise à réduire le coût d'expérimentation pour les prochaines générations d'algorithmes spéculatifs. La publication simultanée d'un modèle draft pour Kimi K2.6 suggère une convergence entre les équipes de recherche et les fournisseurs de modèles pour standardiser ce type d'optimisation à l'échelle industrielle.

Impact France/UE

Les équipes françaises et européennes déployant des LLMs en production via vLLM peuvent bénéficier d'une réduction de latence et d'un meilleur taux d'acceptation en contexte long, sans modifier leur infrastructure existante.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique
1arXiv cs.RO 

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu
1 source
10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
2MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
3VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
4MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour