DFlash accélère le décodage spéculatif par blocs de tokens en parallèle, jusqu'à 15x plus de débit sur NVIDIA Blackwell
Une équipe de chercheurs de l'UC San Diego (z-lab) a publié DFlash, une nouvelle technique d'inférence qui accélère radicalement la génération de texte par les grands modèles de langage. Là où les approches classiques de décodage spéculatif, comme EAGLE-3, proposent encore les tokens futurs un par un, DFlash adopte une logique de diffusion par blocs : un modèle léger génère un bloc entier de tokens en une seule passe parallèle, puis le grand modèle cible vérifie ce bloc simultanément. Les gains mesurés dépassent 6x d'accélération sans perte de qualité sur une variété de modèles et de tâches. Sur Qwen3-8B avec décodage glouton, DFlash atteint une accélération moyenne de 4,86x, contre 2,02x pour EAGLE-3 dans sa meilleure configuration. Sur les architectures NVIDIA Blackwell, les équipes d'ingénierie de NVIDIA rapportent jusqu'à 15x de débit supplémentaire sur gpt-oss-120b, à cible d'interactivité utilisateur constante, soit environ 2,5x mieux qu'EAGLE-3.
Cette progression est significative pour toute l'industrie de l'inférence LLM, notamment pour les modèles de raisonnement à longue chaîne de pensée (Chain-of-Thought), dont la lenteur de génération est devenue le principal goulot d'étranglement opérationnel. Le principal avantage de DFlash réside dans son architecture : son drafter ne comporte que cinq couches (huit pour Qwen3-Coder), là où des approches antérieures comme DiffuSpec ou SpecDiff-2 mobilisaient des drafters de 7 milliards de paramètres pour plafonner à 3-4x. En injectant les représentations internes du modèle cible directement dans les projections Key et Value de chaque couche du drafter, DFlash maintient un signal fort quel que soit la profondeur de génération. Un drafter DFlash à cinq couches générant 16 tokens surpasse EAGLE-3 générant 8 tokens, à la fois en latence et en taux d'acceptation.
Le décodage spéculatif existe depuis plusieurs années comme réponse à la sous-utilisation chronique des GPU modernes lors de l'inférence autoregressive : un petit modèle propose, un grand modèle vérifie en parallèle, et les tokens acceptés préservent la distribution de sortie originale. Mais la contrainte autoregressif du drafter limitait les gains réels à 2-3x en production. DFlash contourne ce plafond en empruntant aux modèles de diffusion leur capacité à débruiter un bloc masqué en une passe, sans assumer les inconvénients habituels des LLM diffusion purs, souvent moins précis et nécessitant de nombreuses étapes. La prochaine étape pour z-lab et NVIDIA sera de valider ces résultats en production multi-flux et à grande échelle, mais les chiffres actuels font de DFlash un candidat sérieux à l'adoption dans les infrastructures d'inférence haute performance.
Les opérateurs européens d'inférence LLM (clouds souverains, startups IA) pourraient bénéficier indirectement d'une réduction significative des coûts de calcul si DFlash est intégré aux frameworks open-source comme vLLM ou SGLang.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




