Aller au contenu principal
LLMsMarkTechPost15h· 2 min de lecture

DeepSeek publie DSpark, un framework de décodage spéculatif qui accélère la génération par utilisateur de DeepSeek-V4 de 60 à 85 % par rapport à MTP-1

Source originale ↗·

DeepSeek a publié DSpark, un cadre de décodage spéculatif conçu pour accélérer l'inférence de ses grands modèles en production, accompagné de checkpoints open-source et du code d'entraînement DeepSpec sous licence MIT. DSpark n'est pas un nouveau modèle : il s'agit d'une optimisation de service qui s'appuie sur les poids existants de DeepSeek-V4, auxquels est greffé un module de brouillon. Deux checkpoints sont disponibles, DeepSeek-V4-Pro-DSpark et DeepSeek-V4-Flash-DSpark, et les résultats annoncés sont significatifs : en production, la génération par utilisateur est 60 à 85 % plus rapide que la baseline MTP-1, sans aucune perte de qualité sur les sorties. En conditions hors ligne, la longueur acceptée par cycle dépasse Eagle3 de 26 à 31 %, et DFlash de 16 à 18 %.

DSpark tire sa performance d'une architecture hybride qui résout un problème connu du décodage spéculatif : les systèmes parallèles sont rapides mais génèrent des tokens sans tenir compte des voisins, ce qui entraîne une dégradation rapide des acceptations en fin de bloc. DSpark combine un backbone parallèle lourd, basé sur DFlash, qui produit des logits de base pour chaque position, avec une tête séquentielle légère qui ajoute un biais dépendant du préfixe avant l'échantillonnage. Cette tête de Markov, factorisée en rang 256, ne regarde que le token précédent, mais suffit à maintenir un taux d'acceptation élevé sur l'ensemble du bloc. Un mécanisme de vérification à confiance calibrée complète le système : une tête de confiance estime la probabilité qu'un token survive à la vérification, tandis qu'un planificateur adapte dynamiquement la longueur de vérification selon la charge GPU, vérifiant davantage de tokens quand les ressources sont libres et moins quand elles sont saturées.

Le décodage spéculatif est devenu l'un des axes majeurs d'optimisation de l'inférence LLM à grande échelle, notamment depuis la montée en charge de services comme ChatGPT ou Claude, où la latence perçue par utilisateur devient un différenciateur clé. DeepSeek, acteur chinois qui a bousculé le marché début 2025 avec des modèles très compétitifs à faible coût, continue ici de publier ses travaux en open source, une stratégie qui lui permet d'influencer les pratiques de la communauté tout en consolidant sa réputation technique. La mise à disposition de DeepSpec, le code d'entraînement et d'évaluation des brouilleurs, facilitera l'adoption de ces techniques par d'autres équipes. La prochaine étape naturelle sera de voir si ces gains se transfèrent à d'autres architectures de la famille V4, ou si des tiers parviennent à adapter DSpark à leurs propres modèles.

Impact France/UE

Les équipes européennes travaillant sur l'inférence LLM à grande échelle peuvent adopter DSpark et DeepSpec (licence MIT) pour réduire la latence de leurs propres déploiements, sans impact réglementaire ou commercial direct sur la France ou l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B
1MarkTechPost 

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Des chercheurs de NVIDIA ont publié une étude intégrée à NeMo RL v0.6.0 qui accélère significativement la phase d'entraînement par renforcement des grands modèles de langage grâce au décodage spéculatif. Le principe repose sur un petit modèle dit "brouillon" qui propose plusieurs tokens en avance, tandis que le modèle principal, celui qu'on entraîne réellement, les vérifie via un mécanisme de rejet statistique. Sur 32 GPU GB200 (8 nœuds NVL72), cette approche réduit la latence de génération de 100 secondes à 56,6 secondes sur la tâche RL-Zero, soit un gain de 1,8× sur la génération. À l'échelle d'un modèle de 235 milliards de paramètres, les projections donnent un gain de bout en bout de 2,5×. Le framework EAGLE-3 est utilisé comme moteur de brouillon, compatible avec n'importe quel modèle pré-entraîné sans nécessiter de tête de prédiction multi-token native. Ce résultat est particulièrement précieux parce qu'il ne sacrifie rien à la fidélité d'entraînement. La génération par rollout représente entre 65 et 72 % du temps total d'une étape RL, mesure faite sur Qwen3-8B dans deux configurations, RL-Think et RL-Zero. C'est donc le seul goulet d'étranglement qui vaille la peine d'être attaqué. Or les méthodes habituelles d'accélération, exécution asynchrone, replay hors-politique, précision réduite, introduisent toutes un décalage de distribution qui contamine le signal d'entraînement. Le décodage spéculatif, lui, garantit mathématiquement que la distribution de sortie du modèle cible reste identique à ce qu'elle aurait été sans brouillon. Aucune correction hors-politique, aucun biais introduit dans la récompense. L'intégration dans une boucle d'entraînement par renforcement posait néanmoins un défi d'ingénierie non trivial : à chaque mise à jour des poids de la politique, le modèle brouillon doit rester aligné avec cette politique en évolution. NVIDIA a résolu cela avec une architecture à deux chemins dans NeMo RL, un chemin général via EAGLE-3 et un chemin natif pour les modèles disposant de têtes MTP intégrées. Lorsque l'adaptation en ligne du brouillon est activée, les états cachés et log-probabilités issus du passage avant du vérificateur MegatronLM sont réutilisés pour superviser la tête brouillon via un gradient détaché, de sorte que l'entraînement du brouillon n'interfère jamais avec le gradient de politique. Cette fonctionnalité est désormais disponible en production dans NeMo RL v0.6.0, aux côtés du backend SGLang, de l'optimiseur Muon et de l'entraînement long contexte YaRN.

💬 Le vrai problème du RLHF à grande échelle, c'est que 70% du temps tu le passes juste à générer des rollouts. NVIDIA s'y attaque proprement avec le décodage spéculatif dans NeMo : un modèle brouillon qui anticipe, un modèle principal qui valide, et la garantie mathématique que la distribution reste intacte, pas de biais hors-politique introduit en douce. 1,8× sur 8B, 2,5× visé sur 235B, c'est le genre d'optimisation qu'on attendait depuis qu'on fait du RL sérieusement.

LLMsPaper
1 source
Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
2Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
3Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source
Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité
4MarkTechPost 

Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité

Google a annoncé le lancement de drafters Multi-Token Prediction (MTP) pour sa famille de modèles Gemma 4, quelques semaines seulement après que cette gamme a franchi les 60 millions de téléchargements. Cette architecture spécialisée de décodage spéculatif permet de tripler la vitesse d'inférence, soit un gain de 3x, sans aucune perte de qualité ni de précision dans les réponses générées. Les drafters sont disponibles pour plusieurs tailles de modèles, y compris les variantes E2B et E4B conçues pour fonctionner sur appareils mobiles et équipements edge. Le problème que cette technologie résout est fondamental : les grands modèles de langage génèrent les tokens un par un, de manière séquentielle, ce qui oblige le système à charger continuellement des milliards de paramètres depuis la mémoire vidéo vers les unités de calcul. Le vrai goulot d'étranglement n'est pas la puissance brute du GPU, mais la bande passante mémoire, les processeurs restent largement sous-utilisés pendant que les données transitent. L'approche MTP contourne ce problème en découplant la génération de la vérification : un petit modèle "drafter" propose rapidement plusieurs tokens en avance, puis le modèle cible principal (comme Gemma 4 31B) vérifie l'ensemble de ces suggestions en un seul passage parallèle. Si les tokens proposés sont acceptés, l'application peut en sortir toute une séquence, plus un token supplémentaire généré par le modèle cible, dans le même temps qu'il aurait fallu pour en produire un seul. Le gain de vitesse est dit "sans perte" : la sortie finale est strictement identique à ce que le modèle aurait produit seul. Sur le plan technique, Google a introduit plusieurs optimisations architecturales pour maximiser l'efficacité. Les drafters partagent le cache KV (key-value cache) du modèle cible, ce qui évite de recalculer les contextes d'attention déjà traités. Pour les modèles edge E2B et E4B, une technique de clustering dans la couche d'embedding accélère spécifiquement le calcul des logits, l'étape qui convertit les représentations internes du modèle en probabilités sur le vocabulaire, particulièrement coûteuse sur du matériel contraint. Cette annonce s'inscrit dans une course industrielle plus large à l'efficacité d'inférence : réduire les coûts de déploiement et la latence est devenu aussi stratégique que l'amélioration des capacités brutes des modèles, surtout à mesure que les LLM s'intègrent dans des applications temps réel et des appareils grand public.

UELes développeurs et entreprises européens déployant Gemma 4 peuvent tripler leurs débits d'inférence sans surcoût matériel, notamment pour les usages edge et mobile.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic